Në pjesën e parë të artikullit "Policy Gradients", ne trajtojmë bazën. Në pjesën e dytë, vazhdojmë me Diferencën Kohore, akordimin e hiperparametrit dhe kampionimin e rëndësisë. Diferenca Kohore do të reduktojë më tej variancën dhe rëndësia e kampionimit vendos themelin teorik për metodat më të avancuara të gradientit të politikave si TRPO dhe PPO.

TD dallimi kohor

Më pas, konsideroni se jeni një shofer që tarifon shërbimin tuaj me orë. Pra, funksioni i vlerës V(s) mat sa orë për të arritur në destinacionin tuaj përfundimtar. Ne mund të aktivizojmë funksionin e vlerës nga udhëtimi nga San Francisko në San Diego si:

që supozon se duhen respektivisht 1, 6 dhe 1 orë udhëtim për secilin segment.

Le të provojmë përvojën tonë me një prezantim në Monte Carlo. Në shembullin e mëposhtëm, udhëtimi zgjat përkatësisht 2, 6 dhe 2 orë për secilin segment. V(SF) e llogaritur tani bëhet 10.

Në vend të Monte Carlo, ne mund të përdorim ndryshimin kohor TD për të llogaritur V. Në një vështrim përpara me 1 hap, V(S) e SF është koha e marrë (shpërblimet) nga SF në SJ plus V(SJ). Pra, këtu është rezultati i të njëjtës trajektore të mostrës.

Kjo skemë ka një variancë më të ulët sepse ne po shqyrtojmë më pak veprime. Megjithatë, të paktën në trajnimin e hershëm, ai është shumë i njëanshëm pasi vlerat V nuk janë të sakta. Ndërsa përparojmë, paragjykimi në V do të ulet.

Këtu është rezultati me 2 hapa përpara.

Le të shkruajmë matematikën. Për një vështrim përpara me një hap, V është

Dallimi kohor bëhet

Ne mund të llogarisim funksionin Q me një koncept të ngjashëm.

Pra, cilin prej tyre përdorim në llogaritjen e gradientit të politikës?

Vlerësimi i përgjithësuar i avantazhit (GAE)

Një funksion avantazhi me n-hap të parë përkufizohet si:

Në GAE, ne përziejmë së bashku rezultatet e diferencës kohore. Këtu janë funksionet e ndryshme të avantazhit me 1 në k-hap shikimin.

Funksioni i avantazhit përfundimtar për GAE është

ku λështë një hiperparametër nga 0 në 1. Kur λ është 1, është Monte Carlo. Kur λ është 0, është TD me një vështrim përpara.

Tani, ne kemi formulën për të përzier Monte Carlo dhe TD së bashku. Por ne ende nuk jemi përgjigjur se çfarë λ të përdorim. Kjo do të përgjigjet në vazhdim në akordimin e hiperparametrave.

Akordimi i hiperparametrit

Cilat janë vlerat e hiperparametrave për normën e skontimit të shpërblimit γdhe λ?

λpërzien rezultatet e TD me Monte Carlo për të reduktuar variancën. Ndërsa λzvogëlohet nga një në zero, ne peshojmë më shumë ndaj TD se Monte Carlo. TD zvogëlon variancën, por rrit paragjykimet. Ne nuk po përdorim rezultatin e saktë nga luajtja e të gjithë trajektores në llogaritjen e shpërblimeve dhe për këtë arsye paragjykimi rritet. Në praktikë, ne duam kryesisht rezultatin e Monte Carlo me një ndihmë të vogël nga TD. Siç tregohet më poshtë në figurën në të majtë për një nga eksperimentet e lodrave, kostoja bie pasi kemi λmë afër një, por jo saktësisht një. Pra, ne duhet të përqendrohemi në Monte Carlo me pak të mësuar TD.

Në shumë probleme RL, shpërblimet e marra në të ardhmen janë po aq të mira sa shpërblimet tani. Norma e skontimit γmund të vendoset në një pa zbritje. Megjithatë, në shumë algoritme, si algoritmi Aktor-kritik, varianca në vlerësimin Q (vlera kritike) zvogëlohet nëse γështë më i vogël se një. fortë>Kjo i ndihmon modelet të mësojnë shumë më mirë edhe vetë problemi nuk e kërkon atë.

Në eksperimentin me lodrën e demonstruar më sipër, ajo arrin performancën më të mirë (sa më e ndritshme aq më mirë në figurën e mësipërme) kur γ është 0,98 dhe λ është 0,96. Këto parametra duhet të akordohen dhe shpresojmë se ky seksion ju jep disa tregues.

Të mësuarit në bazë të politikave v.s. mësimi jashtë politikës

PG që përshkruam është një mësim mbi politikat. Ne e përsosim politikën aktuale dhe përdorim të njëjtën politikë për të eksploruar dhe mbledhur mostra për të llogaritur gradientin e politikës.

Të mësuarit në bazë të politikave ka efikasitet të dobët të mostrës. Përditësimi tjetër duhet të rikthejë përsëri mostrat e reja duke përdorur politikën e re për të llogaritur gradientin e politikës. Mostrat e vjetra të mbledhura nuk janë të ripërdorshme. Për një trajektore me qindra lëvizje, kjo është jashtëzakonisht joefikase për vetëm një përditësim të vetëm politikash.

Përndryshe, shpërblimet e një trajektoreje mund të llogariten duke përdorur "kampionimin e rëndësisë". Në kampionimin e rëndësisë, shpërblimi i pritur mund të llogaritet me një politikë të ndryshme dhe më vonë të rikalibrohet nga raporti i shpërndarjes së τ (nënvizoni me të kuqe më poshtë).

Pra, shpërblimet e pritura mund të vlerësohen nga mostrat e mbledhura nga politika e mëparshme. Kjo hap derën e mos rifreskimit të mostrave të mbledhura sa herë që ndryshohet një politikë. Por ajo ka kufizimet e veta.

Kampionimi i rëndësisë

Por le të shohim së pari rëndësinë e marrjes së mostrave me gradientin e politikave. A mund ta nxjerrim Gradientin e Politikës duke përdorur mostrën e rëndësisë?

Ky është i njëjti rezultat që kemi nxjerrë gradientin e politikës më parë.

Bazuar në këtë, ne mund të shprehim objektivin tonë duke përdorur kampionimin e rëndësisë. Gradienti i politikës bëhet:

Përsëri, do të merremi me një zinxhir shumëzimi që mund të shpërthejë ose tkurret në zero.

Le të ripunojmë sërish funksionin objektiv:

Duke aplikuar kampionimin me rëndësi, bëhet:

Nëse mund të kufizojmë se sa larg ndryshojmë politikën, mund të injorojmë termin e kryqëzuar më lart. dmth shpërndarja e probabilitetit të shteteve ndërmjet dy politikave të ngjashme duhet të jetë afër një. Prandaj, objektivi mund të formulohet si

me një kufizim të shtuar që politika e re nuk mund të jetë e ndryshme nga politika e vjetër me δ (e matur me divergjencë). Dhe ne mund të përmirësojmë dhe rifreskojmë objektivin në mënyrë të përsëritur për të gjetur politikën optimale.

Pse e formulojmë problemin në një mënyrë tjetër duke përdorur mostrën e rëndësisë? Në RL, mostrat e trajnimit të dhëna ndryshojnë vetëm rrjedhën e trajnimit. Siç e dimë më mirë, ne kërkojmë një pjesë të ndryshme të hapësirës. Optimizimi i traditës në mësimin e thellë si zbritja me gradient supozon se shpërndarja e të dhënave për hyrje është relativisht konstante. Megjithatë, RL e thyen këtë supozim dhe e bën shumë të vështirë akordimin e shkallës së mësimit.

Koncepti i rëndësisë së kampionimit ofron një bazë për metoda më të avancuara të Gradientit të Politikave, duke përfshirë TRPO dhe PPO. Kufizimi i shtuar na ofron një udhëzim se sa larg mund ta ndryshojmë politikën përpara se llogaritja jonë të jetë shumë larg nga politika aktuale dhe ne nuk mund t'i besojmë më llogaritjes. Ky rajon besimi na ndihmon të mos ndërmarrim veprime tepër optimiste që dëmtojnë përparimin e trajnimit. Për të detajuar konceptin, ai ka nevojë për më shumë shpjegim dhe për këtë arsye do ta rezervojmë diskutimin në artikuj të veçantë.

Më shumë mendime

Në mësimin Q, ne provojmë veprime të ndryshme nga një gjendje dhe kuptojmë se sa mirë (vlera e Q) në kryerjen e atyre veprimeve. A i provon Curry pozat tona të ndryshme dhe i matë sa të mira janë ato? Ose ai fillon me disa poza dhe i zhvillon ato gradualisht (Ashtu si Gradient i Politikës). Ne nuk do të kemi përgjigjen për ju. Nuk ka asnjë arsyetim teorik për të pohuar nëse Q-mësimi ose Gradienti i Politikave është më i mirë. Në praktikë, ne punojmë me burime të kufizuara dhe qasje të ndryshme mund të favorizojnë detyra të ndryshme RL. Por Gradient i Politikës është padyshim një mënyrë intuitive dhe popullore për të zgjidhur problemet e RL. Kjo është mënyra se si një person mund të marrë vendime dhe trajnimi RL është më i interpretueshëm.

Sidoqoftë, Gradient i Politikës ka variancë të lartë dhe efikasitet të keq të mostrës. Për të luftuar problemin e variancës, ne kemi nevojë për një grup më të madh të mostrave për të llogaritur çdo gradient të politikës. Ne mund të llogarisim një bazë për të reduktuar variancën. Për të balancuar midis paragjykimeve dhe variancës, GAE përzien mësimin e Monte Carlo dhe TD, i cili na ofron një mekanizëm për të akorduar trajnimin duke përdorur shkëmbime të ndryshme. Rregullimi i normave të të mësuarit për PG është shumë i vështirë. Merrni parasysh përdorimin e optimizimit më të avancuar si ADAM ose RMSProp.

Metodat e avancuara të gradientit të politikave

Megjithatë, Gradient i Politikës Natyrore bëhet një qasje më popullore në optimizimin e politikës. Dekurajon kryerjen e lëvizjeve shumë agresive që rezultojnë të gabuara dhe shkatërrojnë përparimin e stërvitjes. Konceptualisht, ajo u bë duke ndërmarrë lëvizje vetëm brenda një distance besimi-rajon. Shkurtimisht, mos e bëni ndryshimin e politikave aq të mëdha sa që llogaritja të mos bëhet aq e besueshme sa për t'u besuar. Por qasja e re është një optimizim i rendit të dytë që vuan keq në kompleksitet dhe nuk përshkallëzohet mirë për modelet e mëdha. TRPO është prezantuar për të hequr domosdoshmërinë e llogaritjes së inversit të shtrenjtë të Matricës së Informacionit Fisher FIM. Por ende nuk është e mjaftueshme pasi llogaritja e FIM kërkon ende shumë mostra. A mund ta lehtësojmë kërkesën nga Gradienti i Politikës Natyrore në mënyrë që të mos kemi nevojë të kryejmë një optimizim të rendit të dytë? PPO përgjigjet vetëm duke vendosur një kufizim të butë në ndryshimin e politikës në mënyrë që të mund të përdorë metodën e ngritjes së rregullt të gradientit në optimizimin e objektit. Këtu është një përmbledhje e shpejtë e tendencave në Gradientin e Politikave. Qëndroni të sintonizuar në artikujt seri të mësimit të përforcimit të thellë për secilën metodë të avancuar.

Kredia dhe referencat

"Kursi UCL RL"

"Kursi UC Berkeley RL"

"UC Berkeley RL Bootcamp"

"Letër A3C"

"Letër GAE"