Nimeüksuste ja süntaktiliste märgenduste vahelise kooskõla parandamine

Organisatsiooni nimi
TartuNLP
Kokkuvõte
Nimeüksuste märgendus toob tekstis välja isikunimed, kohanimed ning
organisatsiooninimed (Tkachenko jt 2013). Sõltuvussüntaktiline märgendus toob esile sõnadevahelised seosed lauses ning võimaldab piiritleda fraase (Muischnek jt 2016). Mõlemad lingvistilised märgendused on loodavad automaatselt ning üksteisest sõltumatult, mistõttu esineb nende vahel ka ebakõlasid.

Käesoleva töö eesmärgiks on välja töötada reeglid nimeüksuste ja süntaktiliste märgenduste vaheliste ebakõlade tuvastamiseks ning nende märgenduskihtide automaatseks parandamiseks. Lähtematerjaliks, millel reegleid saab arendada, testida ja hinnata, on Eesti keele koondkorpus, mis on varasemate tööde käigus juba automaatselt märgendatud. Lõpp-eesmärgiks on luua märgenduste kooskõla parandav Pythoni moodul, mis oleks integreeritav ka EstNLTK teegi (Laur jt 2020) kooseisu.

Viited:

Tkachenko, A., Petmanson, T., & Laur, S. (2013). Named entity recognition in Estonian. In
Proceedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language
Processing (pp. 78-83).

Muischnek, K., Müürisep, K., & Puolakainen, T. (2016). Estonian dependency treebank: from
constraint grammar tagset to universal dependencies. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (pp. 1558-1565).

Laur, S., Orasmaa, S., Särg, D., & Tammo, P. (2020). Estnltk 1.6: Remastered Estonian NLP
pipeline. In Proceedings of The 12th Language Resources and Evaluation Conference (pp. 7152-7160).
Lõputöö kaitsmise aasta
2022-2023
Juhendaja
Siim Orasmaa
Suhtlemiskeel(ed)
eesti keel
Nõuded kandideerijale
Pythoni programmeerimine
Tase
Bakalaureus
Märksõnad
#keeletehnoloogia #tekstianalüüs #lingivistilised_märgendused #estnltk

Kandideerimise kontakt

 
Nimi
Siim Orasmaa
Tel
E-mail
siim.orasmaa@ut.ee
Kuulutus
PDF kuulutus