Scikit-learni mooduli arendamine uue masinõppe andmejaotuse jaoks

Nimi
Rain Vagel
Kokkuvõte
Masinõpe on ala, kus tehakse andmete ja statistiliste mudelite põhjal ennustusi. Andmejaotuse abil saavad arendajad efektiivselt testida ja raporteerida enda mudelite täpsust või veamäära piiratud andmehulkade puhul. Andmejaotusest olenevalt tagastavad need meetodid ka erinevaid mudelit kirjeldavaid näitajaid, näiteks hüperparameetreid. On avastatud uus andmejaotamise meetod nimega ristvalideerimine & risttestimine. Kuid see pole hetkel laialdast kasutust leidnud, sest ükski avatud lähtekoodiga masinõppe teek ei kaasa seda. Selle töö raames arendame me scikit-learni jaoks sobivat moodulit ning rakendame seda erinevatele ülesannetele. Arendatud moodul on varustatud avatud lähtekoodi litsentsiga, mis tähendab, et kõik saavad seda vabalt kasutada. Esmased katsed näitavad, et uus andmejaotuse meetod võib regressiooni ülesannetel anda halvemaid tulemusi, kui alguses ootasime. Selleks peab ristvalideerimist & rist-testimist rohkem uurima, et paremini mõista ja rohkem kasutada seda uut andmejaotuse skeemi.
Lõputöö keel
inglise
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Raul Vicente Zafra, Kristjan Korjus
Kaitsmise aasta
2017
 
PDF