GPT-3.5 peenhäälestamine terviseandmete märgendamiseks
Nimi
Anna Maria Tammin
Kokkuvõte
Töö eesmärk oli uurida suure keelemudeli GPT-3.5 Turbo võimekust terviseandmetes nimeolemite märgendamiseks. Terviseandmed sisaldavad vabatekstina olulist teavet patsientide kohta. Selleks et seda teavet oleks võimalik kasutada statistilistes analüüsides, tuleb tekstidest oluline info eraldada, näiteks nimeolemeid märgendades. Masinõppel põhinevad lahendused vajavad nimeolemite märgendamise ülesandega toimetulekuks suurt märgendatud andmestikku, kuid keelemudel GPT-3.5 Turbo on võimeline kohanema erinevatele loomuliku keele töötluse ülesannetele väheste näidete põhjal. Seega võib keelemudeli üldistamisvõime tulla kasuks ka nimeolemite märgendamiseks. Töö raames peenhäälestati erinevate suurustega andmehulkadel mudeleid, et näha, kuidas peenhäälestamine mudeli märgendamise tulemusi mõjutab. Tulemused näitasid, et peenhäälestamine parandab mudeli võimet terviseandmeid märgendada ning ingliskeelsetel tekstidel peenhäälestatud mudelid saavad ka eestikeelsete epikriiside tekstide märgendamises paremini hakkama kui nende baasmudel.
Lõputöö keel
eesti
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Hendrik Šuvalov
Kaitsmise aasta
2024