Arvutiteaduse instituut - lõputööde register

Valminud lõputööd (sisestamine) Lõputööde teemad (sisestamine)

GPT-3.5 peenhäälestamine terviseandmete märgendamiseks

Nimi

Anna Maria Tammin

Kokkuvõte

Töö eesmärk oli uurida suure keelemudeli GPT-3.5 Turbo võimekust terviseandmetes nimeolemite märgendamiseks. Terviseandmed sisaldavad vabatekstina olulist teavet patsientide kohta. Selleks et seda teavet oleks võimalik kasutada statistilistes analüüsides, tuleb tekstidest oluline info eraldada, näiteks nimeolemeid märgendades. Masinõppel põhinevad lahendused vajavad nimeolemite märgendamise ülesandega toimetulekuks suurt märgendatud andmestikku, kuid keelemudel GPT-3.5 Turbo on võimeline kohanema erinevatele loomuliku keele töötluse ülesannetele väheste näidete põhjal. Seega võib keelemudeli üldistamisvõime tulla kasuks ka nimeolemite märgendamiseks. Töö raames peenhäälestati erinevate suurustega andmehulkadel mudeleid, et näha, kuidas peenhäälestamine mudeli märgendamise tulemusi mõjutab. Tulemused näitasid, et peenhäälestamine parandab mudeli võimet terviseandmeid märgendada ning ingliskeelsetel tekstidel peenhäälestatud mudelid saavad ka eestikeelsete epikriiside tekstide märgendamises paremini hakkama kui nende baasmudel.

Lõputöö keel

eesti

Lõputöö tüüp

Bakalaureus - Informaatika

Juhendaja(d)

Hendrik Šuvalov

Kaitsmise aasta

2024

PDF

TÜ arvutiteaduse instituudi lõputööde register

GPT-3.5 peenhäälestamine terviseandmete märgendamiseks