Esindusõpe vabatekstilistel meditsiinilistel andmetel
Nimi
Meelis Perli
Kokkuvõte
Eestis üle 99% kliinilistest andmetest on digiteeritud. See on suurepärane ressurss kliiniliste uuringute jaoks, kuid neid andmeid ei ole lihtne kasutada, sest suur osa andmetest on vaba teksti kujul. Viimastel aastatel on süvaõppe mudelid revolutsioneerinud loomuliku keele töötlemise valdkonna. Uued mudelid on kiiremad ja saavad parimaid tulemusi erinevates ülesannetes, sealhulgas nimetatud üksuste tuvastamises ning teksti klassifitseerimises. Eesti meditsiiniandmete kasutamise hõlbsustamiseks, uuritakse selles lõputöös meetodeid Digiloost pärinevate kliiniliste kokkuvõtete peal BERT mudelite eel-treenimiseks. Kolm mudelit eel-treeniti nullist. Esimene ainult kliiniliste kokkuvõtete peal. Teise eel-treenimiseks kasutati lisaks kokkuvõtetele ka tekste Eesti rahvuskorpusest 2017. Kolmas mudel on optimiseeritud versioon EstBERT mudelist, mis on varasemalt eeltreenitud mudel. Nende mudelite kasulikkuse näitamiseks ja võrdlemiseks peenhäälestati ja hinnati kõiki neli mudelit kolmel teksti klassifitseerimise ja ühel nimega üksuse tuvastamise allavoolu ülesannetel. Parima tulemuse saavutas mudel, mida treeniti ainult kliinilistel kokkuvõtetel. Esindusõppe meetod, millega EstBERTi mudelit optimeeriti kliiniliste kokkuvõtete peal, kiirendas eel-treenimise kiirust ja parandas tulemusi, kuid ikkagi jäi alla parimale mudelile, mis siin lõputöös treeniti.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Raivo Kolde, Sven Laur
Kaitsmise aasta
2021