Alternatiiv keskväärtuse maksimeerimisele

Nimi
Andre Litvin
Kokkuvõte
Stiimulõppe ülesandeid saab üldjoontes kirjeldada järgmiselt. Stiimulõppe kasutaja kvantifitseerib vastavalt oma eelistustele, kui hea mingi süsteemi iga olek oleks, ning mingil agendil, näiteks robotil, tuleb valida tegevusi nii, et süsteem liiguks kasutaja defineeritud headesse olekutesse. Formaalsemalt kasutaja omistab igale olekule ja tegevusele mingi reaalarvulise auhinna ning stiimulõpe eesmärk on automaatselt leida strateegiat ehk eeskirja, mida järgides saaks agent kõrge auhindade summa.
Enamasti ei määra tegevuse valik aga üheselt olekut, vaid mõjutab üksnes erinevate olekute ning seega ka auhindade tõenäosuseid. Sel juhul võetakse tavaliselt eesmärgiks maksimeerida auhinnasumma keskväärtust. Kuid selles lõputöös tõestatakse, et iga tõenäosuse p < 1 ning konstandi c > 0 korral leidub stiimulõpe ülesanne, mille puhul auhinnasumma keskväärtust maksimeeriv eeskiri saab auhinnasumma Z ◦ , aga mõni teine eeskiri saab auhinnasumma Z, kusjuures P[Z > Z ◦ + c] > p. Teiste sõnadega auhinnasumma keskväärtust maksimeeriv eeskiri võib saada ükskõik kui suure tõenäosusega (väljaarvatud 1) ning ükskõik kui suure konstandi võrra väiksema auhinnasumma kui mõni teine eeskiri. Selline eeskirja omadus ei ole enamasti soovitav. Selles lõputöös defineeritakse juhusliku suuruse silutud mediaan ning tõestatakse, et auhinnasumma silutud mediaani maksimeerival eeskirjal ei ole sellist omadust.
Lõputöö keel
eesti
Lõputöö tüüp
Bakalaureus - Informaatika
Juhendaja(d)
Raul Vicente, PhD
Kaitsmise aasta
2023
 
PDF