arvutiteaduse instituudi lõputööderegister


Scikit-learni mooduli arendamine uue masinõppe andmejaotuse jaoks
Nimi Rain Vagel
Kokkuvõte Masinõpe on ala, kus tehakse andmete ja statistiliste mudelite põhjal ennustusi. Andmejaotuse abil saavad arendajad efektiivselt testida ja raporteerida enda mudelite täpsust või veamäära piiratud andmehulkade puhul. Andmejaotusest olenevalt tagastavad need meetodid ka erinevaid mudelit kirjeldavaid näitajaid, näiteks hüperparameetreid. On avastatud uus andmejaotamise meetod nimega ristvalideerimine & risttestimine. Kuid see pole hetkel laialdast kasutust leidnud, sest ükski avatud lähtekoodiga masinõppe teek ei kaasa seda. Selle töö raames arendame me scikit-learni jaoks sobivat moodulit ning rakendame seda erinevatele ülesannetele. Arendatud moodul on varustatud avatud lähtekoodi litsentsiga, mis tähendab, et kõik saavad seda vabalt kasutada. Esmased katsed näitavad, et uus andmejaotuse meetod võib regressiooni ülesannetel anda halvemaid tulemusi, kui alguses ootasime. Selleks peab ristvalideerimist & rist-testimist rohkem uurima, et paremini mõista ja rohkem kasutada seda uut andmejaotuse skeemi.
Lõputöö keel inglise
Lõputöö tüüp Bakalaureus - Informaatika
Juhendaja(d) Raul Vicente Zafra, Kristjan Korjus
Kaitsmise aasta 2017
PDF