UTF-8 kodeeringu toe lisamine programmile Lingua::Ident
Nimi
Ando Paju
Kokkuvõte
Töö eesmärgiks oli leida, kas UTF-8 sümbolites peituva lisainfo arvestamine
programmis Lingua::Ident parandab eesti keele tuvastamist. Hetkel kasutab Lingua::Ident
keeltele hinnangu andmiseks baite.
Töö esimeses peatükis võrdlesin erinevaid keeletuvastuse meetodeid ja valisin Ted
Dunningu algoritmi, mis kasutab Markovi mudelit.
Töö teises peatükis selgitasin, mida kujutab endast Markovi mudel ja Ted Dunningu
algoritm.
Kolmandas peatükis leidsin, mis on Lingua::Ident'i puudused eesti keele jaoks ja
pakkusin muudatused, mida sisse viia, et täpitähti (ja muid sümboleid, mida algses ASCII
kodeeringus pole) ja UTF-8 kodeeringut arvestada oskaks.
Neljandas peatükis viisin muudatused programmi sisse ning korraldasin katse, et näha
kas muudetud programm tuvastab esialgsest programmist eesti keelt paremini.
Katse tulemusena leidsin, et UTF-8 kasutamine baitide asemel aitas programmil veidi
paremini eesti keelt tuvastada. Keeletuvastusel on tõenäoliselt rohkem kasu selliste keelte
jaoks, mis kasutavad suuremal hulgal mitmebaidilisi UTF-8 sümboleid.
Lõputöö keel
eesti
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Heiki-Jaan Kaalep
Kaitsmise aasta
2013