arvutiteaduse instituudi lõputööderegister


Nõrgalt juhendatud teksti klassifitseerimine eestikeelse meelsusanalüüsi jaoks
Nimi Andreas Pung
Kokkuvõte Teksti klassifitseerimine on üks kõige fundamentaalsem ülesanne loomuliku keele töötluses. Käsitsi tekstide märgendamine on kulukas ja võib vajada spetsialiseeritud domeeniteadmisi – sellisel juhul võivad juhendamata ja nõrgalt juhendatud lähenemised olla kasulikud. Käesolevas magistritöös klassifitseeritakse eestikeelsete tekstide meelsust nõrga juhendamise paradigmaga. Selles paradigmas luuakse nõrgad märgendid märgendusfunktsioonidega (Ratner et al., 2016). Käesoleva töö eesmärk on hinnata nõrgalt juhendatud umbes 40× suurema andmestikuga treenitud mudelite rakendatavust, võrreldes väiksema arvu tekstide käsitsi märgendamisega, et treenida täielikult juhendatud klassifitseerija. Võrreldud mudelid on täielikult ja nõrgalt juhendatud BERT (Devlin et al., 2019); nõrgalt juhendatud COSINE (Yu et al., 2021) ja WeaSEL (Cachay et al., 2021). Inimhindamine viidi läbi tekstidel, kus mudelite ennustused olid kõige vastukäivamad. Leitakse, et täielikult juhendatud mudelid töötavad kõige paremini. Kõige paremini toimival suuremal andmestikul treenitud nõrgalt juhendatud mudelil oli keskmine klassifitseerimistäpsus 7.29% halvem (7.05% halvem F1-skoor) kui täielikult juhendatud BERTi mudelil. Nõrgalt juhendatud mudelite kehvem tulemus võib tuleneda märgendusfunktsioonide madalast kvaliteedist – nende edasiarendamine võib anda paremaid tulemusi.
Lõputöö keel inglise
Lõputöö tüüp Magister - Informaatika
Juhendaja(d) Kairit Sirts
Kaitsmise aasta 2022
PDF