Morfeemiteadlik sõnaosade segmenteerimine neuromasintõlke jaoks

Nimi
Kaspar Papli
Kokkuvõte
Hiljuti kasutusele võetud neuromasintõlge koos sõnaosade segmenteerimisega on saavutanud masintõlke süsteemidest parima tõlkekvaliteedi. Tihti kasutatav bait-paar kodeeringul (BPK) põhinev segmenteerimisalgoritm ei arvesta sõnade morfoloogilist struktuuri, mis haruldaste sõnade puhul põhjustab aeg-ajalt eksitavat segmenteerimist ja ebakorrektset tõlget. Käesolevas töös esitatakse uus algoritm sõnaosade segmenteerimiseks, mis eemaldab BPK morfoloogilise struktuuri eiramise tõttu tekkinud segmenteerimisvead. Analüüs näitab, et esitatud algoritm vähendab BLEU poolt mõõdetud tõlkekvaliteeti 0.9 punkti võrra, kuid parandab eelnevalt ebatäpseid segmenteerimisi sisaldanud lausete segmenteerimist ja tõlget.
Lõputöö keel
inglise
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Mark Fišel
Kaitsmise aasta
2017
 
PDF