Ajaväljendite tuvastamine eestikeelses tekstis

Nimi
Siim Orasmaa
Kokkuvõte
Käesoleva töö eesmärgiks oli luua eesti keele ajaväljendite tuvastaja: programm, mis leiab loomuliku keele tekstist üles ajaväljendid ning esitab leitud väljendite semantika formaliseeritud kujul. Süsteem on ülesehituselt reeglipõhine ning toetub automaatse morfoloogilise analüüsi ja ühestamise tulemustele. Reeglite koostamisel lähtuti eeskätt ajaväljendite kasutusest ajakirjandustekstides. Antud töö teoreetilises osas kirjeldati erinevaid ajaväljendite liigitusaluseid ning tutvustati ajaväljendite märgendamiseks kasutatavaid keeli. Samuti käsitleti erinevaid lähenemisi, mida on kasutatud teistes keeltes ajaväljendite tuvastajate loomisel. Töö tuuma moodustab praktiline osa, milles arendati edasi autori bakalaureusetöös alustatud ajaväljendite tuvastajat. Testimisel leiti, et loodud süsteemi juures oli kõige problemaatilisem ajaväljendite eraldamise suhteliselt madal saagis (arenduskorpusel 84%, tundmatul tekstil 75,3%), ajaväljendite eraldamise täpsus oli aga suhteliselt kõrge (mõlemal korpusel ~98%). Ajaväljendite semantika normaliseerimise tulemused olid võrreldavad teiste keelte jaoks loodud süsteemide tulemustega: arenduskorpusel mõõdeti saagiseks ja täpsuseks ~86%, testkorpusel olid saagis ja täpsus ~91%.
Lõputöö keel
eesti
Lõputöö tüüp
Magister - Infotehnoloogia
Juhendaja(d)
Margus Treumuth begin_of_the_skype_highlighting     end_of_the_skype_highlighting begin_of_the_skype_highlighting     end_of_the_skype_highlighting
Kaitsmise aasta
2010
 
PDF