Automatiseeritud masinõppe suunas: hüperparameetrite optimeerimine online-klasterdamises

Nimi
Dmitri Rozgonjuk
Kokkuvõte
Masinõpe (ingl k machine learning; ML) on näidanud suurt potentsiaali andmepõhistes, eriti reaalajas kasutatavates rakendustes, kasutades online-ML-i, mis töötleb andmevooge ning kohandub dünaamiliselt andmejaotuste muutusega. Automatiseeritud ML (AutoML) püüab automatiseerida mitmeid ML töövoos sisalduvaid ülesandeid nagu hüperparameetrite optimeerimist (HPO) ning (parima) mudeli valikut. Kuigi on teadustöid, mis on püüdnud ühendada online-ML-i ja AutoML-i, on automatiseeritud online-klasterdamise alase töö hulk piiratud. Käesoleva magistritöö fookuses on potentsiaalse HPO lahenduse arendamine online-klasterdamises. Eesmärgiks oli arendada mudelite ansamblimisel põhinev lähenemine, mis kasutab rohkem kui ühte sisemist klastrivalideerimisindeksit (KVI), et adresseerida mudeli hindamise probleemi online-klasterdamises. HPO rakendamiseks kasutati river raamistikku. HPO tulemuste testimiseks on rakendatud kahte online-klasterdamise algoritmi kuuel sünteetilisel andmestikul koos klastrikuu- luvuse märgenditega. HPO-s optimeeriti mudeleid eraldi KVI-ga (Silhouette-i skoor ning Calinski-Harabaszi Indeks) ning mudeleid võrreldi omavahel välise KVI, Kohandatud Randi Indeksi abil. Eksperimentides võrreldi (a) vaikimisi hüperparameetritega online-klasterdamisalgoritme (b) parimate optimeeritud online-klasterdamisalgoritmide ning (c) parimatest optimeeritud mudelitest kokku pandud ansambel-mudeli sooritusega. Tulemustest selgus, et HPO sooritus võib sõltuda andmete tüübist. K-tsentroidide põhistes andmestikes näitasid parimat sooritust parimad Silhouette-iga optimeeritud mudelid ning ansambel-mudelid. Samas aga ei olnud HPO-l ning mudelite ansamblil sooritust parandavat efekti S-kõvera põhistes andmestikes.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Andmeteadus
Juhendaja(d)
Radwa El Shawi
Kaitsmise aasta
2023
 
PDF Lisad