Institute of Computer Science - Graduation Theses Topics Registry

Graduation theses topics (Submit a thesis topic) Completed theses (Submit your thesis)

Süntaksipõhine treeningandmete augmenteerimine eestikeelsetel tekstidel

Organization

EstNLTK

Abstract

Loomuliku keele töötlemisel ja faktieralduses kasutatavate transformeripõhiste mudelite treenimiseks on vaja suhteliselt suurt treeningandmestikku. Eelnevad eksperimendid on näidanud, et treeningandmestik peab katma võimalikult erinevaid
süntaktilisi konstruktsioone ning lihtne sünonüümipõhine treeningandmete augmenteerimine ei toimi. Antud töös uurime süntaktilistel modifikatsioonidel põhinevaid augmentatsioone. Meie eesmärk on luua masinõppe mudelid, mille korral otsuse tegemiseks ebaoluliste lauseosade ümberpaigutamine ja lause lühendamine ei
muuda väljundanalüüsi.

Selleks on tarvis luua automaatne meetod tuvastamaks, kas süntaksipuu alamosa on võimalik lausest välja jätta (vabad ja seotud laiendid). Selleks saab kasutada olemasolevaid Est UD (https://github.com/EstSyntax/EstUD) puupanga fraaside märgendusi
ning grammatikakorrektori väljundit loomaks uut automaattuvastajat.
Vastavat tuvastajat saab kasutada nii juba märgendatud lausete augmenteerimiseks kui ka automaatmärgenduse ebakõlade tuvastamiseks märgendamata tekstidel.

Graduation Theses defence year

2023-2024

Supervisor

Sven Laur

Spoken language (s)

Estonian

Requirements for candidates

Level

Masters

Keywords

Application of contact

Name

Sven Laur

Phone

E-mail

sven.laur@ut.ee

UT Institute of Computer Science Graduation Theses Topics Registry

Süntaksipõhine treeningandmete augmenteerimine eestikeelsetel tekstidel

Application of contact