Arvutiteaduse instituut - lõputööde register

Valminud lõputööd (sisestamine) Lõputööde teemad (sisestamine)

Uurimus suurte keelemudelite võimest inimese kombel enda poolt genereeritud teksti ära tunda

Nimi

Katariina Ingerma

Kokkuvõte

Suur keelemudel on generatiivne tehisintellekti mudel, mis suudab genereerida inimkeelele lähedasi tekste. Suurte keelemudelite populaarsus kasvab jõudsasti iga päevaga, kuna nad on võimelised mõistma ja geneereerima tekste, mis sarnanevad väga tihedalt inimeste loodud tekstidele. Nende kasutamine on kiiresti levinud erinevates valdkondades, nagu reklaam, loosungite ja uudiste kirjutamine, lugude genereerimine jne. Teisalt levib ka keelemudelite pahatahtlik kasutamine, mis on tõsiseks ohuks infoökosüsteemidele ja avaliku arvamuse usaldusele. Seetõttu on hädavajalik töötada välja meetodeid, mis suudaksid eristada keelemudelite loodud teksti inimeste poolt kirjutatud tekstist. Käesolevas töös uurisime inimeste ja keelemudeli loodud tekstide keelelisi erinevusi, keelemudelite võimet tuvastada tekste, mis on nende endi poolt genereeritud ning teksti pikkuse mõju selle autori tuvastamisel. Tulemused näitavad, et väiksemate parameetritega keelemudelid genereerivad tekste millel on suurem on tekstisõnade ja teksti sõnavara (ingl Type-Token-Ratio) suhe võrreldes inimautorite kirjutatud tekstidega, kuid samas on rohkem arenenud mudelite tekstidel inimeste kirjutatud tekstiga rohkem sarnasust. Saadud tulemused näitavad ka, et mida arenenum on keelemudel, seda väiksem on tõenäosus, et nad suudavad oma genereeritud teksti tuvastada, sest nende tekst meenutab rohkem inimeste kirjutatud teksti. See uuring on oluline, et mõista suurte keelemudelite loodud tekstidest tulenevaid probleeme nagu valeinfo. See aitab kaasa uute meetodite väljatöötamisele, et keelemudelite tehtud sisu tuvastada.

Lõputöö keel

inglise

Lõputöö tüüp

Bakalaureus - Informaatika

Juhendaja(d)

Somnath Banerjee

Kaitsmise aasta

2024

PDF

TÜ arvutiteaduse instituudi lõputööde register

Uurimus suurte keelemudelite võimest inimese kombel enda poolt genereeritud teksti ära tunda