Arvutiteaduse instituut - lõputööde register

Valminud lõputööd (sisestamine) Lõputööde teemad (sisestamine)

Neurovõrkudel põhineva eestikeelse lemmatiseerija tõhustamine leksikoni abil

Nimi

Kirill Milintsevich

Kokkuvõte

Lemmatiseerimisel ehk igale sõnale tekstis algvormi leidmisel on loomuliku keele töötluse rakendustes tähtis roll. See on eriti oluline teksti eeltöötluse etapis, mida kasutatakse andmete puhastamiseks ja ettevalmistamiseks loomuliku keele töötluse mudelite ja algoritmide kasutamiseks. Lemmatiseerimine, kui seda teha õigesti, võib oluliselt parandada mudeli toimivust või teisest küljest vähendada oluliselt tulemuste kvaliteeti, kui see jäetakse tähelepanuta.
Tänapäeval domineerivad tehisnärvivõrgud nii loomuliku keele töötluse valdkonnas kui ka lemmatiseerimise mudelites. Enamik hiljutisi uurimustöid on saavutanud neurovõrkude abil lemmatiseerimises 95 –96% täpsust, kuid arenguruumi on veel piisavalt. Nagu enamiku närvivõrguarhitektuuride puhul, võib treeningandmete puudumine olla probleemiks mudeli loomisel. Paljude väiksemate keelte jaoks ei ole piisavalt suuri treeningandmestikke veel olemas. Ka eesti keel, mis olemasolevate treeningandmestiku suuruse poolest on kusagil keskmisel tasemel, võib saada kasu lisaandmetest.
Käesolevas magistritöös pakume välja uudse lähenemise neurovõrgupõhisele lemmatiseerimisele, mis lisaks tavapärasele sisendile saab sisendiks ka ennustused kas teisest, nõrgemast reeglipõhisest lemmatiseerijast või võib kasutada ka leksikoni andmeid lemma ennustuse tõhustamiseks. Mitme tähelepanukihi kombinatsiooniga suudab mudel valida kahest sisendist parima ja ennustada täpsemaid lemmasid.

Lõputöö keel

inglise

Lõputöö tüüp

Magister - Informaatika

Juhendaja(d)

Kairit Sirts

Kaitsmise aasta

2020

PDF

TÜ arvutiteaduse instituudi lõputööde register

Neurovõrkudel põhineva eestikeelse lemmatiseerija tõhustamine leksikoni abil