Suurte keelemudelitega sünteetiliste grammatikavigade genereerimine eesti keelele
Nimi
Martin Vainikko
Kokkuvõte
Eesti keele grammatiliste vigade parandamise jaoks ei ole piisavalt andmeid, et tõhusalt treenida autokorrektorit. Hiljutised edusammud suurte keelemudelite vallas on aga avanud uusi võimalusi sünteetiliste andmete genereerimiseks. Genereerime OpenAI GPT mudelitega (GPT-3.5-Turbo, GPT-4-Turbo ja GPT-4) lausetesse grammatilisi vigu. Hindame genereeritud andmehulki manuaalselt hulki märgendades ning treenides hulkade peal transformeripõhiseid autokorrektoreid. Me järeldasime, et laused, mis pärinevad grammatiliste vigade korpusest ning kuhu GPT on vigu genereerinud, saavutavad automaathindmisel võrdväärseid tulemusi inimandmetega. Märgendamise tulemusena märkasime, et GPT genereerib probleemseid muutusi lausetesse. Töö avab
palju uusi suundi edasisteks uurimusteks.
palju uusi suundi edasisteks uurimusteks.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Agnes Luhtaru, Mark Fišel
Kaitsmise aasta
2024