Reeglipõhine ühestaja eesti keele jaoks

Nimi
Kristi Zirk
Kokkuvõte
Sõnatähenduste ühestamine on semantilise ühestamise üks allülesandeid. Selle käigus omistatakse sõnale just see tähendus, mis tuleneb tema kontekstist. Erinevates kontekstides võib ühel sõnal olla erinevad semantilised interpretatsioonid, milleks on homonüümia ja polüseemia. Sõnatähenduse ühestamine käib mingi etaloni alusel, milleks on eesti keeles TEKsaurus. Tema väikseim osa on sünohulk ehk sünonüümirida, mille moodustavad ühte mõistet väljendavad sünonüümsed (sama tähendusega) sõnad ja sõnaühendid. Ühestamisel on kasutusel mitmed meetodid, peamiselt kasutatakse reeglipõhiseid ja statistikal põhinevaid ühestajaid. Käesoleva töö teoreetilises osas antakse ülevaade sõnatähenduse ühestamise erinevatest mudelitest ja käsitsi ning automaatse ühestamise meetoditest. Hetkel on eesti keele jaoks olemas umbes 500 000 sõnast koosnev morfoloogiliselt ühestatud korpus, mida on ühestanud vähemalt kaks inimest. Praktilise osa eesmärgiks oli formaliseerida olemasolevad sõnatähenduste ühestamise reeglid ja luua programm, mis kasutaks neid reegleid sõnatähenduste märgendamiseks korpuses. Töö käigus formaliseeriti 75 nimisõna ja 5 verbi reeglit. Sõnatähenduste ühestamise reeglid olid seni kirja pandud eestikeelsete lausetena, mis olid abiks leksikograafidele õige sõnatähenduse määramisel.
Lõputöö keel
eesti
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Neeme Kahusk
Kaitsmise aasta
2013
 
PDF Lisad