Süntaksipõhine treeningandmete augmenteerimine eestikeelsetel tekstidel

Organization
EstNLTK
Abstract
Loomuliku keele töötlemisel ja faktieralduses kasutatavate transformeripõhiste mudelite treenimiseks on vaja suhteliselt suurt treeningandmestikku. Eelnevad eksperimendid on näidanud, et treeningandmestik peab katma võimalikult erinevaid
süntaktilisi konstruktsioone ning lihtne sünonüümipõhine treeningandmete augmenteerimine ei toimi. Antud töös uurime süntaktilistel modifikatsioonidel põhinevaid augmentatsioone. Meie eesmärk on luua masinõppe mudelid, mille korral otsuse tegemiseks ebaoluliste lauseosade ümberpaigutamine ja lause lühendamine ei
muuda väljundanalüüsi.

Selleks on tarvis luua automaatne meetod tuvastamaks, kas süntaksipuu alamosa on võimalik lausest välja jätta (vabad ja seotud laiendid). Selleks saab kasutada olemasolevaid Est UD (https://github.com/EstSyntax/EstUD) puupanga fraaside märgendusi
ning grammatikakorrektori väljundit loomaks uut automaattuvastajat.
Vastavat tuvastajat saab kasutada nii juba märgendatud lausete augmenteerimiseks kui ka automaatmärgenduse ebakõlade tuvastamiseks märgendamata tekstidel.
Graduation Theses defence year
2023-2024
Supervisor
Sven Laur
Spoken language (s)
Estonian
Requirements for candidates
Level
Masters
Keywords

Application of contact

 
Name
Sven Laur
Phone
E-mail
sven.laur@ut.ee