Infootsingus kasutatavad loomuliku keele töötluse tehnikad

Nimi
Raigo Kodasmaa
Kokkuvõte
Töös anti kirjanduse põhjal ülevaade infootsingust, sealhulgas loomuliku keele automaattöötluse meetodite kasutamisest infootsingu erinevatel etappidel. Infootsing toimub järgmiselt. Infootsingu süsteemi esimese ülesandena koostatakse dokumentide kollektsioon, milleks võib olla näiteks veebilehtede kogum. Seejärel teostatakse kollektsioonis olevatele dokumentidele leksikaalne analüüs, stoppsõnade elimi-neerimine ja lemmatiseerimine. Nende protsesside tulemusena väheneb terminite hulk dokumentides. Järelejäänud terminite alusel dokumendid indekseeritakse. Indekseerimise peamine ülesanne on dokumentide järjestamine selle alusel, kui tihti mingi termin neis esineb. Kasutaja sisestab otsingusüsteemile päringu, mis väljendab tema teabevajadust. Päringust leitakse võtmesõnad ning nende esinemissageduste alusel on võimalik indekseeritud dokumente otsingutulemusena väljastada. Kasutaja teadmised valdkonnast ei pruugi alati olla piisavad, et konstrueerida sobivat päringut. Selle probleemi lahendamiseks kasutatakse asjakohast tagasisidet, mis tähendab, et kasutaja kaasatakse protsessi, kus otsingusüsteem väljastab tulemusi ja kasutaja hindab, millised dokumendid on sobivad tema informatsiooninõudega ja millised mitte. Päringute formuleerimise probleemiks on veel ka asjaolu, et päringusse sisestatakse tavaliselt 2-3 sõna, mis on liiga vähe, et otsingusüsteem suudaks leida sobivaid dokumente. Päringut laiendatakse automaatselt, kasutades sünonüümisõnastikke ja sõnade vahelisi relatsioone, seejärel koostatakse uus päring ning väljastatakse kasutajale tulemused. Töö käigus loodi ka eesti keele stoppsõnade näidisloend ja koostati skriptid, mis suudavad teha eestikeelsete sõnade lemmatiseerimist ning terminite esinemissageduste ja termini-dokumendi maatriksi leidmist.
Lõputöö keel
eesti
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Mare Koit
Kaitsmise aasta
2011
 
PDF