arvutiteaduse instituudi lõputööde teemade register


Nimeüksuste ja süntaktiliste märgenduste vahelise kooskõla parandamine
Organisatsiooni nimiTartuNLP
KokkuvõteNimeüksuste märgendus toob tekstis välja isikunimed, kohanimed ning
organisatsiooninimed (Tkachenko jt 2013). Sõltuvussüntaktiline märgendus toob esile sõnadevahelised seosed lauses ning võimaldab piiritleda fraase (Muischnek jt 2016). Mõlemad lingvistilised märgendused on loodavad automaatselt ning üksteisest sõltumatult, mistõttu esineb nende vahel ka ebakõlasid.

Käesoleva töö eesmärgiks on välja töötada reeglid nimeüksuste ja süntaktiliste märgenduste vaheliste ebakõlade tuvastamiseks ning nende märgenduskihtide automaatseks parandamiseks. Lähtematerjaliks, millel reegleid saab arendada, testida ja hinnata, on Eesti keele koondkorpus, mis on varasemate tööde käigus juba automaatselt märgendatud. Lõpp-eesmärgiks on luua märgenduste kooskõla parandav Pythoni moodul, mis oleks integreeritav ka EstNLTK teegi (Laur jt 2020) kooseisu.

Viited:

Tkachenko, A., Petmanson, T., & Laur, S. (2013). Named entity recognition in Estonian. In
Proceedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language
Processing (pp. 78-83).

Muischnek, K., Müürisep, K., & Puolakainen, T. (2016). Estonian dependency treebank: from
constraint grammar tagset to universal dependencies. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (pp. 1558-1565).

Laur, S., Orasmaa, S., Särg, D., & Tammo, P. (2020). Estnltk 1.6: Remastered Estonian NLP
pipeline. In Proceedings of The 12th Language Resources and Evaluation Conference (pp. 7152-7160).
Lõputöö kaitsmise aasta2022-2023
JuhendajaSiim Orasmaa
Suhtlemiskeel(ed)eesti keel
Nõuded kandideerijalePythoni programmeerimine
Tase Bakalaureus
Märksõnad #keeletehnoloogia #tekstianalüüs #lingivistilised_märgendused #estnltk
Kandideerimise kontakt
Nimi Siim Orasmaa
Tel
E-mail siim.orasmaa@ut.ee
Kuulutus PDF kuulutus


ati.study@lists.ut.ee