Metaõppel põhinev lähenemine klastrite automaatseks eeltöötluseks

Nimi
Hasan Mohammed Tanvir
Kokkuvõte
Andmete eeltöötlemine on iga andmeanalüüsi projekti lahutamatu osa. Andmete eeltöötlusmeetodeid on mitmeid, näiteks puuduvate väärtuste asendamine, skaleerimine ja andmete puhastamine. Käesoleva projekti eesmärgiks on automatiseerida andmete eeltöötlemist automatiseeritud masinaõppe (AutoML) abil. Kuigi juhendatud õpe on olnud kesksel kohal AutoML meetodi arendamisel, siis juhendamata õpet on senini suhteliselt väheuuritud. Seetõttu pakub käesolev töö välja andmekonveieri (data pipeline), mis võimaldaks piiratud masinõppe algoritme puudutavate eelteadmistega kasutajatel teostada klastrite juhendamata eeltöötlust, kasutades selleks metaõppe ruumi ja metaõppijaid domeen-agnostilisel viisil. Töö uurib võimalust integreerida andmete eeltöötlemist metõppe-põhisesse raamistikku (cSmartML), võimaldamaks automatiseeritud algoritmi valikut ning klastrite hüperparameetrite häälestamist. Kavandatav metoodika hõlmab metaõpet ja loob uut teadmist iga 112 võrdlusandmekogumi lõikes. Ilmneb, et cSmartML jõudlus on automatiseeritud eeltöötluskomponendi integreerimisel sageli palju parem kui algne klastrite töötlus. cSmartML-l põhinev analüüs näitas, et välja pakutud andmete eeltöötlemise lähenemine parandas päris andmestike puhul klastrite tulemust 0.3%-27% 7 juhul 10-st ning kunstlike andmestike puhul 4%-44% 3 juhul 6st. Lisaks ilmneb katsetest, et töös välja pakutud lähenemine kasutab määratletud objektiivseid funktsioone multi-objektiivsete funktsioonide raamistikus, mis tõestab, et andmete eeltöötlus juhendamata klastrite töötlemisel on sama oluline kui juhendatud õpe. Lisaks pakub antud projekt metaõppe ruumile tuginedes andmete eeltöötluse ja algoritmi valiku (sealhulgas hüperparameetrite häälestamine) konveieri, mida saab kasutada edasiseks klastrite töötlemiseks.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Dr. Radwa Elshawi
Kaitsmise aasta
2022
 
PDF