Monotoonsuse mõõtmine mitmeklassi klassifitseerimisel

Nimi
Joonas Kriisk
Kokkuvõte
Masinõpe on arvutiteaduste valdkond, mille põhieesmärgiks on luua meetodid, mis suudavad teha ennustusi andmete põhjal. Mitmeklassi klassifitseerimisülesande puhul on lahenduseks klassifitseerida objekt ühte vähemalt kolmest võimalikust klassist, kasutades selleks vaadelduid andmeid. Peale mudeli treenimist, on vaja kuidagi ka mudeli täpsust hinnata. Üldiselt tehakse andmestik kaheks - treening- ja testandmeteks - ja mudeli täpsust testitakse testandmete peal. Mudelid väljastavad skoore, mis näitavad ennustuse enesekindlust. Otsustuste tegemise protsessis on eriti kasulik, kui need skoorid on tõlgendatavad klasside tõenäosustena. Kalibreerimist kasutatakse skooride tõenäosuseks konverteerimisel. Vead ennustamistel võivad olla negatiivsete tagajärgeda, kui neid kasutataks teatud teatud valdkondades ja viisidel, seega on tähtis, et mudelid oleksid hästi kalibreeritud. Kõige laialt levinum binaarne kalibreerimismeetod on isotooniline regressioon, see sobitab vaba joone skooridele, aga sellel on üks kitsendus - joon peab olema mittelangev. Mitmeklassi klassifitseerimisel üldiselt vähendatakse probleem binaarsele tasemele, et sellel saaks jätkuvalt rakendada isotoonilist regressiooni, aga see eeldab, et skoorid oleksid monotoonsed. Seega on ainult loogiline uurida, kas mitmeklassi klassifitseerimisel monotoonsus peab paika, sest see aitaks luua uusi mitmeklassi kalibreerimismeetodeid.

Antud bakalaureuse lõputöö keskendub monotoonsuse mõõtmisele luues mitmeid masinõppe mudeleid erinevate andmestike peal. Mõõtmiseks teostamiseks tuli ka välja mõelda viis, kuidas seda teha - tööraames pakkusime välja kaks meetodit. Esimene meetod järjestab kõik tõenäosused ühe klassi raames, luues üks-vs-ülejäänud võrdluse. Teine meetod võtab kahe klassi parimad 50% tõenäosustest (et vähendada kolmanda klassi mõju andmepunktidel) ja järjestab need ning luues seega üks-vs-üks võrdluse. Töö peamine tulemus on, et 71,4% andmestik-mudel paaridest on monotoonsed ning mittemonotoonsete paaride monotoonsus sõltub suuresti sellest, et andmestikel, kus mudeleid treeniti, oli kõikide mudelite täpsus madal.

Viidi läbi empiiriline uuring 21 andmestiku peal, kus igal andmestikul treeniti 7 masinõppe mudelit. Monotoonsuse mõõtmiseks kasutati kaht eri mõõtmismeetodit ja tulemuste põhjal võib öelda, et mõlemal mõõtmismeetodil on sarnased resultaadid ning monotoonsust mõjutab mudeli täpsus. Monotoonsust mitmeklassi andmestike peal ei ole varasemalt uuritud ja vastav lõputöö annab ülevaate, kas sellised andmestikud on monotoonsed või ei.

Masinõpe on igapäevaelus laialt kasutuses - reklaamid, pangandus, meditsiin ja seetõttu on vajalik, et mudelid oleksid hästi kalibreeritud. Teades, et mitmeklassi andmestikud on monotoonsed, siis see annab võimaluse luua efektiivsema kalibeerimismeetodi vastavatel andmestikel.
Lõputöö keel
inglise
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Mari-Liis Allikivi, Meelis Kull
Kaitsmise aasta
2018
 
PDF