Arvutiteaduse instituut - lõputööde register

Valminud lõputööd (sisestamine) Lõputööde teemad (sisestamine)

UTF-8 kodeeringu toe lisamine programmile Lingua::Ident

Nimi

Ando Paju

Kokkuvõte

Töö eesmärgiks oli leida, kas UTF-8 sümbolites peituva lisainfo arvestamine programmis Lingua::Ident parandab eesti keele tuvastamist. Hetkel kasutab Lingua::Ident keeltele hinnangu andmiseks baite. Töö esimeses peatükis võrdlesin erinevaid keeletuvastuse meetodeid ja valisin Ted Dunningu algoritmi, mis kasutab Markovi mudelit. Töö teises peatükis selgitasin, mida kujutab endast Markovi mudel ja Ted Dunningu algoritm. Kolmandas peatükis leidsin, mis on Lingua::Ident'i puudused eesti keele jaoks ja pakkusin muudatused, mida sisse viia, et täpitähti (ja muid sümboleid, mida algses ASCII kodeeringus pole) ja UTF-8 kodeeringut arvestada oskaks. Neljandas peatükis viisin muudatused programmi sisse ning korraldasin katse, et näha kas muudetud programm tuvastab esialgsest programmist eesti keelt paremini. Katse tulemusena leidsin, et UTF-8 kasutamine baitide asemel aitas programmil veidi paremini eesti keelt tuvastada. Keeletuvastusel on tõenäoliselt rohkem kasu selliste keelte jaoks, mis kasutavad suuremal hulgal mitmebaidilisi UTF-8 sümboleid.

Lõputöö keel

eesti

Lõputöö tüüp

Bakalaureus - Informaatika

Juhendaja(d)

Heiki-Jaan Kaalep

Kaitsmise aasta

2013

PDF Lisad

TÜ arvutiteaduse instituudi lõputööde register

UTF-8 kodeeringu toe lisamine programmile Lingua::Ident