Vähese ressursiga soome-ugri keelte lõigutaseme tõlge

Nimi
Dmytro Pashchenko
Kokkuvõte
Massiliselt mitmekeelsete masintõlkemudelite teke võimaldas tõhusalt tõlkida paljusid keeli samaaegselt, sealhulgas neid, millel on piiratud hulk ressursse. Hiljutine rekordiomanik MADLAD-400, mis katab üle 400 keele, on suuresti uurimata. Käesolevas töös püüame uurida MADLADi võimekust, häälestades seda nelja väikese ressursiga soome-ugri keele (karjala, liivi, lüüdi ja vepsa, mis ei sisaldu MADLADis) tõlkimisele vene keelde ja tagasi. Lisaks uurime lõigutasandil tõlke mõju mudeli kvaliteedile, kasutades MADLADi dokumenditasemel tõlkimise võimekust. Leiame, et 1) MADLADi-põhine süsteem saavutab tipptasemel mudelitega võrreldavad tulemused ja avastame, et 2) süsteemi lõigutasandil versioon ületab lausetasemel versiooni kuni kolme BLEU punkti võrra, parandades oluliselt lausetevahelist kooskõla.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Mark Fishel, Elizaveta Yankovskaya
Kaitsmise aasta
2024
 
PDF