Sisupõhine analüüs Vision Transformerite kompositsioonilisusest

Nimi
Braian Olmiro Dias
Kokkuvõte
Närvivõrgu (Neural Network) mudelid on saavutanud tipptasemel tulemusi mitmesugustes ülesannetes seoses nägemise ja keelealase tööga, kuid nende loogilise mõtlemise võime kohta on endiselt rida küsimusi. Pole selge, kas need mudelid suudavad analoogia kasutamisest kaugemale mõelda. Näiteks, kas pildi pealkirjastamise mudelis suudab mudel õppida korreleerima stseeni esitust pealkirjaga, st tekstiruumiga, või suudab mudel õppida objekte siduma selgesõnaliselt ja kasutama individuaalsete esituste selget kompositsiooni. Mudelite suutmatus viimast teostada on seostatud nende ülesannete laiemate stsenaariumide generaliseerumise ebaõnnestumisega. Transformer-põhised mudelid on saavutanud kõrge jõudluse erinevates keele- ja nägemisega seotud ülesannetes. Nende edu on omistatud nende võimele modelleerida pikamaa suhteid jadade vahel. Kuid Vision Transformer käsitlevas arutelus on öeldud, et paikade (patches) kasutamine märkidena (token) ja nende vaheline koostoime annab neile võime paindlikult siduda ja modelleerida kompositsioonilisi suhteid erinevate objekide vahel erinevatel kaugustel. Seetõttu näitavad need mudelid selget kompositisoonivõimet.
Käesolevas lõputöös viime läbi katseid pildi pealkirjastamise mudeli Transformer (VIT) põhise nägemise kodeerija peal. Eelkõige uurime sisemist esitust kodeerija eri kihtidel, et uurida, kas üks märk kajastab esituse 1) objekti 2) stseenis seotud objekte 3) kahte stseenis oleva objekti kompositsiooni. Meie tulemuste põhjal leiame mõningaid tõendeid, mis viitavad, et transformaatorit töödeldes seotakse objekti omadused ühe märgiga (token). Lisaks pakub see töö meetodite loetelu andmestiku loomiseks ja seadistamiseks, et uurida Vision Transformer mudelite sisemist kompositsioonilisust ning soovitab selle analüüsi laiendamiseks tulevasi uuringusuundi.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Tarun Khajuria
Kaitsmise aasta
2023
 
PDF