Sõltuvussüntaksi analüsaatorite võrdlus eesti keele süntaksi analüüsimiseks
Nimi
Nusaeb Nur Alam
Kokkuvõte
Loomuliku keele töötluse (LKT) tehnoloogia on pidevalt arenemas, viimastel kümnenditel on selles valdkonnas toimunud väga suured edasiminekud. Üks LKT põhiülesanne on sõltuvussüntaksi analüüs, mis on sageli aluseks ka paljudele teistele ülesannetele, näiteks masintõlkele, nimeolemite tuvastamisele jne. Sõltuvussüntaksi analüüsi eesmärgiks on leida lause süntaktiline struktuur ja tuvastada sõnadevahelised grammatilised seosed. Enamik sõltuvussüntaksi analüüsi uuringuid on keskendunud inglise keele analüüsimisele. Antud ma-gistritöö eesmärgiks on hinnata ja võrrelda erinevate süntaksianalüsaatorite tulemuslikkust eesti keele analüüsimisel. Võrdlusesse valitud sõltuvussüntaksi analüsaatorid on: MaltParser, spaCy, Stanford’i neuroanalüsaator (nndep), SyntaxNet ja UDPipe. Hindamiseks kasutati peamiselt märgendatud seoste täpsust (Labelled Attachment Score), märgendamata seoste täpsust (Unlabelled Attachment Score) ning märgenduse täpsust (Label Accuracy). Magistritöö käigus treeniti spaCy, Stanfordi neuroparseri ning UDParseri mudelid eesti keele süntaksi analüüsimiseks, MaltParseri ja SyntaksNet’i jaoks kasutati eksperimentides olemasolevaid eeltreenitud mudeleid.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Tarkvaratehnika
Juhendaja(d)
Kairit Sirts
Kaitsmise aasta
2017