Andmenihe ja tõenäosuslike klassifitseerijate kohandamine

Nimi
Theodore Heiser
Kokkuvõte
Klassifitseerimine on masinõppe ülesanne, kus igale andmepunktile
tuleb tema tunnuste põhjal määrata klass. Tõenäosuslik klassifitseerimine on
kitsam ülesanne, kus kõikidele võimalikele klassidele tuleb määrata iga andmepunkti puhul tõenäosus, mis näitaks klassifitseerija enesekindlust andmepunktile antud klassi määramisel.
Klassikalises masinõppes eeldatakse, et kõik andmepunktid, mida kasutatakse
klassifitseerija treenimiseks või testimiseks on valitud sõltumatult ja samast
tunnuste ja märgendite ühisjaotusest. See on aga päriselulistes rakendustes väga ebatõenäoline, kuna sageli andmete jaotus muutub aja jooksul. Muutust andmete jaotuses klassifitseerija treenimise ja hilisema rakendamise vahel tuntakse kui andmenihet.
Antud töös pakutakse välja uus meetod mistahes selliste tõenäosuslike klassifitseerijate töö parandamiseks, mille puhul on andmetes klassijaotust muutev nihe - omadus, mis on enamikel andmenihetel. Välja pakutud meetod baseerub kohandamise protsessil, mille käigus sobitatakse tõenäosusliku klassifitseerija oodatav väljund andmete klassijaotusega. Varasemas töös on näidatud, et kohandamine vähendab oodatavat kahju keskmise ruutvea ja KL-divergentsi puhul.
Need kaks kaofunktsiooni on osa laiemast funktsioonide perest, mida kutsutakse puhasteks skoorireegliteks.
Välja pakutud protseduuri kutsume edaspidi üldiseks kohandamiseks, kuna see
vähendab oodatavat kahju kõikide puhaste skoorireeglite korral. Üldisel kohandamisel on kaks variatsiooni: piiramata ja piiratud. Piiramata üldine kohandamine annab keskmise ruutvea ja KL-divergentsi korral sama tulemuse nagu juba eksisteerivad kohandamise protseduurid. Piiratud üldine kohandamine on täiendus, mis vähendab oodatavat kahju vähemalt sama palju või rohkem kui piiramata versioon. Mõlemad meetodid lahenduvad kui kumerad minimiseerimisülesanded ning on seega arvutuslikult efektiivsed.
Eksperimentide tulemused näitavad, et piiratud üldine kohandamine vähendab
kahju praktilistes olukordades, kus uue andmejaotuse klassijaotus ei pruugi olla
täpselt teada. Isegi mõõduka veaga hinnatud klassijaotuse korral suudab piiratud üldine kohandamine enamikel juhtudel kahju vähendada.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Meelis Kull
Kaitsmise aasta
2018
 
PDF