Õppimisagentide motiveerimine oma keskkonda kontrollima

Nimi
Youssef Sherif Mansour Mohamed
Kokkuvõte
Uurimine on iga tugevdamisõppe probleemi keskmes. Hõred keskkonnad premeerivad agente harva, mistõttu on nende uurimine äärmiselt raske. Käitumuslikud eelarvamused püüavad probleemi lahendada, motiveerides agenti teatud käitumisviisidele. Keskkonna kontrollitavate aspektide mõistmine on populaarne käitumuslik eelarvamus, mida rakendatakse sisemiste motivaatorite abil. See aitas paljudel mudelitel saavutada tipptasemel tulemusi. Praegused meetodid tuginevad aga kontrollitavate aspektide tuvastamiseks pöörddünaamika õppimisele. Pöörddünaamika õppimisel on puudusi, mis piiravad agendi võimet modelleerida juhitavaid objekte. Toome välja mõned neist puudustest ja pakume välja alternatiivse lähenemisviisi keskkonna kontrollitavate aspektide õppimiseks.

See lõputöö tutvustab kontrollitud efektide võrgustikku (CEN), pooljuhitud meetodit kontrollitavate aspektide õppimiseks tugevdamisõppe keskkonnas. CEN kasutab kontrollitavate objektide tuvastamiseks põhjuslikke süü kontseptsioone. Integreerime CEN-i sisemise motivatsiooni moodulisse, mis parandab tugevdavate õppeagentide uurimiskäitumist. CEN-i kasutavad agendid ületavad pöörddünaamika agente nii tõhususe õppimise kui ka hõredates keskkondades saavutatud maksimaalse skoori osas. CEN-põhine motivaator julgustab agenti rohkem suhtlema keskkonnas kontrollitavate objektidega. Seetõttu jõuab agent tõenäolisemalt sündmusteni, mis käivitavad keskkonnast välise tasu.

Võrdleme agente, kes kasutavad CEN-põhiseid sisemisi motivaatoreid ja teisi, kes kasutavad pöörddünaamikal põhinevaid motivaatoreid. Selleks loome mõlema agendi uurimiskäitumise testimiseks mitu hõredat keskkonda. Tühjas ruudustikus on CEN-i agendid ühtsed, külastades paljusid ruudustiku rakke, samas kui pöördagendid kipuvad kleepuma nurkadele ja seintele. Hõredates klastrites saavutavad CEN-agendid maksimaalse tulemuse 5, samas kui pöördagendid saavad ainult 1. Lisaks õpivad CEN-agendid klastrite keskkonda tõhusamalt lahendama, nõudes vähem keskkonnasamme. Avame lähtekoodiga CEN-i juurutamise, hõredad keskkonnad ja NGU (Never Give Up) õppeagensi, et hõlbustada tulevast kontrollitavuse ja uurimise uurimist.
Lõputöö keel
inglise
Lõputöö tüüp
Magister - Informaatika
Juhendaja(d)
Oriol Corcoll, Raul Vicente
Kaitsmise aasta
2022
 
PDF