Nimeüksuste ja süntaktiliste märgenduste vahelise kooskõla parandamine

Organization
TartuNLP
Abstract
Nimeüksuste märgendus toob tekstis välja isikunimed, kohanimed ning
organisatsiooninimed (Tkachenko jt 2013). Sõltuvussüntaktiline märgendus toob esile sõnadevahelised seosed lauses ning võimaldab piiritleda fraase (Muischnek jt 2016). Mõlemad lingvistilised märgendused on loodavad automaatselt ning üksteisest sõltumatult, mistõttu esineb nende vahel ka ebakõlasid.

Käesoleva töö eesmärgiks on välja töötada reeglid nimeüksuste ja süntaktiliste märgenduste vaheliste ebakõlade tuvastamiseks ning nende märgenduskihtide automaatseks parandamiseks. Lähtematerjaliks, millel reegleid saab arendada, testida ja hinnata, on Eesti keele koondkorpus, mis on varasemate tööde käigus juba automaatselt märgendatud. Lõpp-eesmärgiks on luua märgenduste kooskõla parandav Pythoni moodul, mis oleks integreeritav ka EstNLTK teegi (Laur jt 2020) kooseisu.

Viited:

Tkachenko, A., Petmanson, T., & Laur, S. (2013). Named entity recognition in Estonian. In
Proceedings of the 4th Biennial International Workshop on Balto-Slavic Natural Language
Processing (pp. 78-83).

Muischnek, K., Müürisep, K., & Puolakainen, T. (2016). Estonian dependency treebank: from
constraint grammar tagset to universal dependencies. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (pp. 1558-1565).

Laur, S., Orasmaa, S., Särg, D., & Tammo, P. (2020). Estnltk 1.6: Remastered Estonian NLP
pipeline. In Proceedings of The 12th Language Resources and Evaluation Conference (pp. 7152-7160).
Graduation Theses defence year
2022-2023
Supervisor
Siim Orasmaa
Spoken language (s)
Estonian
Requirements for candidates
Pythoni programmeerimine
Level
Bachelor
Keywords
#keeletehnoloogia #tekstianalüüs #lingivistilised_märgendused #estnltk

Application of contact

 
Name
Siim Orasmaa
Phone
E-mail
siim.orasmaa@ut.ee
Full Document
PDF document