Heuristikud WSDL standardil veebiteenuste otsimiseks roomaja Heritrix näitel
Nimi
Taniel Põld
Kokkuvõte
Resümee
Käesoleva bakalureuse töö eesmärgiks on seadistada ja täiustada avatud lähtekoodil
baseeruvat Heritrix veebiussi. Tehtud muudatuste tulemina peab Heritrix suutma leida
veebiteenuseid märkivaid WSDL faile. Veebiuss ehk web crawler on programm, mis otsib
automatiseeritult mööda Interneti avarusi ringi liikudes soovitud veebidokumente. WSDL
on XML formaadis keel, mis sätestab veebiteenuse asukoha ja protokolli ning kirjeldab
pakutavad meetodid ja funktsioonid.
Eesmärgi saavutamiseks uuriti avaldatud artikleid, mis kirjeldasid erinevaid strateegiaid
Internetist veebiteenuste otsimiseks kasutades veebiussi. Mainitud tööde põhjal loodi
Heritrix'i seadistus, mis võimaldas WSDL teenuse kirjeldusi otsida. Lisaks kirjutati
programmeerimis keeles Java Heritrixi täiendav klass, mis võimaldab lihtsustatud kujul
salvestada veebi roomamise tulemusi.
Ühes leitud artiklites kirjeldati suunatud otsingu (focused crawling) toe lisamist
veebiteenuseid otsivale Heritrix veebiussile. Suunatud otsing võimaldab ussil hinnata uusi
avastatud veebilehti ning lubab keskenduda lehtedele, mis suurema tõenäosusega
sisaldavad otsitavaid ressursse. Kuna vaadeldavas programmis puudub tugi suunatud
otsingu funktsionaalsusele, lisati see käesoleva töö käigus täiendava mooduli loomisega.
Algoritmi aluseks võeti mainitud artiklis kirjeldatud lahendus.
Selleks, et kontrollida kas lisatud täiendus muutis roomamise protsessi täpsemaks või
kiiremaks teostati eksperiment kolme katsega. Käivitati kaks Heritrixi exemplari, millest
mõlemad seadistati WSDL teenuse kirjeldusi ostima, kuid ainult ühele neist lisati suunatud
otsingu tugi. Katse käigus vaadeldi leitud teenuste arvu ja kogu läbi kammitud
veebilehtede kogust.
Eksperimendi tulemuste analüüsist võis järeldada, et suunatud otsingu funktsionaalsus
muudab roomamise protsessi täpsemaks ning võimaldab seeläbi WSDL teenuse kirjeldusi
kiiremini leida.
Lõputöö keel
inglise
Lõputöö tüüp
Bakalaureus - Infotehnoloogia
Juhendaja(d)
Peep Küngas, Meelis Kull
Kaitsmise aasta
2012