Tekstandmete ettevalmistamine suurte keelemudelite treenimiseks
Nimi
Tanel Pastarus
Kokkuvõte
Käesolevas bakalaureusetöö käigus taastati tõlgitud tekstandmete originaalne lausete järjekord algsete tekstikorpuste dokumentide põhjal. Mõned laused sisaldasid tõlkimise järel vigu, mida üritati töötlemisega parandada. Viidi läbi ka pilootkatse, kus peenhäälestati töödeldud andmete peal kolm GPT-2 keelemudelit, et teada saada kas tõlgitud tekstandmete kasutamine on elujõuline keelemudelite treenimiseks.
Lõputöö keel
eesti
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Mark Fišel
Kaitsmise aasta
2024