GPT mudeli sisendi ja temperatuuri mõju meditsiiniliste andmete märgendamisele
Nimi
Veronika Kukk
Kokkuvõte
Arsti kirjutatud vabas vormis tekstid sisaldavad olulist informatsiooni patsiendite kohta. Üks meetoditest nendest tekstidest fakte eraldada on masinõppe mudelitega nimeolemite (näiteks haigus, protseduur) märgendamine. Madala ressurssidega keeltes, nagu eesti keel, on keeruline treenida kvaliteetseid märgendamise mudeleid, sest vajalikke treeningandmeid on vähe. Selles uurimistöös kasutati sünteetilisi patsientide andmeid, et uurida, milline on GPT-3.5 keelemudeli märgenduste kvaliteet eestikeelsetel andmetel. Töös võrreldi kolme temperatuuri parameetriga GPT mudeli märgendusi. Lisaks katsetati, kuidas korraga küsitavate klasside arv mudeli märgendusi mõjutab. Selgus, et kahel juhul kolmest oli madalaim temperatuur parimate tulemustega. Märgendusklasside arvu puhul leiti, et kahe ja kolme kaupa küsimine andis paremaid tulemusi kui ühe kaupa.
Lõputöö keel
eesti
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Hendrik Šuvalov
Kaitsmise aasta
2024