Neurovõrkudel põhineva eestikeelse lemmatiseerija tõhustamine leksikoni abil
Nimi
Kirill Milintsevich
Kokkuvõte
Lemmatiseerimisel ehk igale sõnale tekstis algvormi leidmisel on loomuliku keele töötluse rakendustes tähtis roll. See on eriti oluline teksti eeltöötluse etapis, mida kasutatakse andmete puhastamiseks ja ettevalmistamiseks loomuliku keele töötluse mudelite ja algoritmide kasutamiseks. Lemmatiseerimine, kui seda teha õigesti, võib oluliselt parandada mudeli toimivust või teisest küljest vähendada oluliselt tulemuste kvaliteeti, kui see jäetakse tähelepanuta.
Tänapäeval domineerivad tehisnärvivõrgud nii loomuliku keele töötluse valdkonnas kui ka lemmatiseerimise mudelites. Enamik hiljutisi uurimustöid on saavutanud neurovõrkude abil lemmatiseerimises 95 –96% täpsust, kuid arenguruumi on veel piisavalt. Nagu enamiku närvivõrguarhitektuuride puhul, võib treeningandmete puudumine olla probleemiks mudeli loomisel. Paljude väiksemate keelte jaoks ei ole piisavalt suuri treeningandmestikke veel olemas. Ka eesti keel, mis olemasolevate treeningandmestiku suuruse poolest on kusagil keskmisel tasemel, võib saada kasu lisaandmetest.
Käesolevas magistritöös pakume välja uudse lähenemise neurovõrgupõhisele lemmatiseerimisele, mis lisaks tavapärasele sisendile saab sisendiks ka ennustused kas teisest, nõrgemast reeglipõhisest lemmatiseerijast või võib kasutada ka leksikoni andmeid lemma ennustuse tõhustamiseks. Mitme tähelepanukihi kombinatsiooniga suudab mudel valida kahest sisendist parima ja ennustada täpsemaid lemmasid.
Tänapäeval domineerivad tehisnärvivõrgud nii loomuliku keele töötluse valdkonnas kui ka lemmatiseerimise mudelites. Enamik hiljutisi uurimustöid on saavutanud neurovõrkude abil lemmatiseerimises 95 –96% täpsust, kuid arenguruumi on veel piisavalt. Nagu enamiku närvivõrguarhitektuuride puhul, võib treeningandmete puudumine olla probleemiks mudeli loomisel. Paljude väiksemate keelte jaoks ei ole piisavalt suuri treeningandmestikke veel olemas. Ka eesti keel, mis olemasolevate treeningandmestiku suuruse poolest on kusagil keskmisel tasemel, võib saada kasu lisaandmetest.
Käesolevas magistritöös pakume välja uudse lähenemise neurovõrgupõhisele lemmatiseerimisele, mis lisaks tavapärasele sisendile saab sisendiks ka ennustused kas teisest, nõrgemast reeglipõhisest lemmatiseerijast või võib kasutada ka leksikoni andmeid lemma ennustuse tõhustamiseks. Mitme tähelepanukihi kombinatsiooniga suudab mudel valida kahest sisendist parima ja ennustada täpsemaid lemmasid.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Kairit Sirts
Kaitsmise aasta
2020