Süntaksipõhine treeningandmete augmenteerimine eestikeelsetel tekstidel

Organisatsiooni nimi
EstNLTK
Kokkuvõte
Loomuliku keele töötlemisel ja faktieralduses kasutatavate transformeripõhiste mudelite treenimiseks on vaja suhteliselt suurt treeningandmestikku. Eelnevad eksperimendid on näidanud, et treeningandmestik peab katma võimalikult erinevaid
süntaktilisi konstruktsioone ning lihtne sünonüümipõhine treeningandmete augmenteerimine ei toimi. Antud töös uurime süntaktilistel modifikatsioonidel põhinevaid augmentatsioone. Meie eesmärk on luua masinõppe mudelid, mille korral otsuse tegemiseks ebaoluliste lauseosade ümberpaigutamine ja lause lühendamine ei
muuda väljundanalüüsi.

Selleks on tarvis luua automaatne meetod tuvastamaks, kas süntaksipuu alamosa on võimalik lausest välja jätta (vabad ja seotud laiendid). Selleks saab kasutada olemasolevaid Est UD (https://github.com/EstSyntax/EstUD) puupanga fraaside märgendusi
ning grammatikakorrektori väljundit loomaks uut automaattuvastajat.
Vastavat tuvastajat saab kasutada nii juba märgendatud lausete augmenteerimiseks kui ka automaatmärgenduse ebakõlade tuvastamiseks märgendamata tekstidel.
Lõputöö kaitsmise aasta
2023-2024
Juhendaja
Sven Laur
Suhtlemiskeel(ed)
eesti keel
Nõuded kandideerijale
Tase
Magister
Märksõnad

Kandideerimise kontakt

 
Nimi
Sven Laur
Tel
E-mail
sven.laur@ut.ee