Arvutiteaduse instituut - lõputööde register

Valminud lõputööd (sisestamine) Lõputööde teemad (sisestamine)

Esindusõpe vabatekstilistel meditsiinilistel andmetel

Nimi

Meelis Perli

Kokkuvõte

Eestis üle 99% kliinilistest andmetest on digiteeritud. See on suurepärane ressurss kliiniliste uuringute jaoks, kuid neid andmeid ei ole lihtne kasutada, sest suur osa andmetest on vaba teksti kujul. Viimastel aastatel on süvaõppe mudelid revolutsioneerinud loomuliku keele töötlemise valdkonna. Uued mudelid on kiiremad ja saavad parimaid tulemusi erinevates ülesannetes, sealhulgas nimetatud üksuste tuvastamises ning teksti klassifitseerimises. Eesti meditsiiniandmete kasutamise hõlbsustamiseks, uuritakse selles lõputöös meetodeid Digiloost pärinevate kliiniliste kokkuvõtete peal BERT mudelite eel-treenimiseks. Kolm mudelit eel-treeniti nullist. Esimene ainult kliiniliste kokkuvõtete peal. Teise eel-treenimiseks kasutati lisaks kokkuvõtetele ka tekste Eesti rahvuskorpusest 2017. Kolmas mudel on optimiseeritud versioon EstBERT mudelist, mis on varasemalt eeltreenitud mudel. Nende mudelite kasulikkuse näitamiseks ja võrdlemiseks peenhäälestati ja hinnati kõiki neli mudelit kolmel teksti klassifitseerimise ja ühel nimega üksuse tuvastamise allavoolu ülesannetel. Parima tulemuse saavutas mudel, mida treeniti ainult kliinilistel kokkuvõtetel. Esindusõppe meetod, millega EstBERTi mudelit optimeeriti kliiniliste kokkuvõtete peal, kiirendas eel-treenimise kiirust ja parandas tulemusi, kuid ikkagi jäi alla parimale mudelile, mis siin lõputöös treeniti.

Lõputöö keel

inglise

Lõputöö tüüp

Magister - Informaatika

Juhendaja(d)

Raivo Kolde, Sven Laur

Kaitsmise aasta

2021

PDF

TÜ arvutiteaduse instituudi lõputööde register

Esindusõpe vabatekstilistel meditsiinilistel andmetel