Arvutiteaduse instituut - lõputööde register

Valminud lõputööd (sisestamine) Lõputööde teemad (sisestamine)

Nõrgalt juhendatud teksti klassifitseerimine eestikeelse meelsusanalüüsi jaoks

Nimi

Andreas Pung

Kokkuvõte

Teksti klassifitseerimine on üks kõige fundamentaalsem ülesanne loomuliku keele töötluses. Käsitsi tekstide märgendamine on kulukas ja võib vajada spetsialiseeritud domeeniteadmisi – sellisel juhul võivad juhendamata ja nõrgalt juhendatud lähenemised olla kasulikud. Käesolevas magistritöös klassifitseeritakse eestikeelsete tekstide meelsust nõrga juhendamise paradigmaga. Selles paradigmas luuakse nõrgad märgendid märgendusfunktsioonidega (Ratner et al., 2016). Käesoleva töö eesmärk on hinnata nõrgalt juhendatud umbes 40× suurema andmestikuga treenitud mudelite rakendatavust, võrreldes väiksema arvu tekstide käsitsi märgendamisega, et treenida täielikult juhendatud klassifitseerija. Võrreldud mudelid on täielikult ja nõrgalt juhendatud BERT (Devlin et al., 2019); nõrgalt juhendatud COSINE (Yu et al., 2021) ja WeaSEL (Cachay et al., 2021). Inimhindamine viidi läbi tekstidel, kus mudelite ennustused olid kõige vastukäivamad. Leitakse, et täielikult juhendatud mudelid töötavad kõige paremini. Kõige paremini toimival suuremal andmestikul treenitud nõrgalt juhendatud mudelil oli keskmine klassifitseerimistäpsus 7.29% halvem (7.05% halvem F1-skoor) kui täielikult juhendatud BERTi mudelil. Nõrgalt juhendatud mudelite kehvem tulemus võib tuleneda märgendusfunktsioonide madalast kvaliteedist – nende edasiarendamine võib anda paremaid tulemusi.

Lõputöö keel

inglise

Lõputöö tüüp

Magister - Informaatika

Juhendaja(d)

Kairit Sirts

Kaitsmise aasta

2022

PDF

TÜ arvutiteaduse instituudi lõputööde register

Nõrgalt juhendatud teksti klassifitseerimine eestikeelse meelsusanalüüsi jaoks