(Përforco) Gradient i politikës me TensorFlow2.x

Implementimi i Përforcimit (PG) me TensorFlow 2.x

Në këtë artikull, ne do të përpiqemi të kuptojmë konceptin që qëndron pas algoritmit të Gradientit të Politikave të quajtur Reinforce. Dhe më pas do të shikojmë kodin për algoritmet në TensorFlow 2.x. Le të shohim së pari se çfarë është Gradienti i Politikës dhe më pas do të shikojmë një metodë specifike të Gradientit të Politikës, e quajtur Reinforce.

Çfarë/Pse Gradient i Politikës?

Deri më tani, ne po mësonim vlerat Q për çiftet e veprimit të gjendjes. Në vend që të mësojnë vlerat Q dhe më pas të gjejnë një politikë, algoritmet e Gradientit të Politikave mësojnë drejtpërdrejt një politikë. Por pse? le ta zbulojmë

Politika e të mësuarit rezulton në konvergjencë më të mirë duke ndjekur gradientin. Ndërsa metodat e bazuara në vlerë mund të kenë një ndryshim të madh në përzgjedhjen e veprimeve të tyre edhe me një ndryshim të vogël në vlerësimin e vlerës.
Këto algoritme janë të dobishme me një numër të madh veprimesh si dronë automatikë fluturues ose makina vetë-drejtuese.
Mund të mësojë politikën stokastike.

Algoritmi dhe zbatimi

Reinforce është një metodë e Gradientit të Politikës Monte Carlo e cila kryen përditësimin e saj pas çdo episodi. Rrjeti ynë nervor merr gjendjen aktuale si hyrje dhe nxjerr probabilitete për të gjitha veprimet. Ne mund të optimizojmë politikën tonë për të zgjedhur veprime më të mira në një gjendje duke rregulluar peshat e rrjetit tonë të agjentëve. Këto pesha rregullohen duke kryer Ngjitje të Gradientit në funksionin tonë objektiv.

Le të shohim kodin.

Rrjeti nervor:

Modeli ynë zbatohet si më poshtë. Ju lutem vini re shtresa e fundit përmban softmax aktivizimi, i cili nxjerr probabilitete për çdo veprim.

Zgjedhja e veprimit:

Merrni probabilitetet e parashikuara sipas grupit të gjendjes së hyrjes NumPy.
Ne përdorim bibliotekën e probabilitetit TensorFlow për t'i kthyer probabilitetet tona në një shpërndarje.
Pastaj marrim mostrën e veprimit nga shpërndarja.
Pastaj kthehemi në veprim si numër i plotë.

Së pari, le t'i hedhim një vështrim trajnimit kryesor për ta kuptuar më mirë.

Cikli kryesor i trajnimit:

Ne kemi mbajtur tre lista që mbajnë shënime për gjendjen, shpërblimin, veprimin.
Modelja stërvitet pas çdo episodi.

Funksioni i mësimit:

Ky funksion merr listën e gjendjeve, veprimeve dhe shpërblimeve si argumente.
Ne do të kthehemi nga elementi i fundit në listën e shpërblimeve.
Më pas do të llogarisim shpërblimin kumulativ të pritur për çdo shtet ashtu siç bëjmë në metodën Tabular Monte Carlo.
Më pas kemi llogaritur gradientin e humbjes dhe aplikojmë optimizuesin.

Funksioni i humbjes:

Humbja është negative e probabilitetit log të veprimit të zgjedhur shumëzuar me shpërblimin e zbritur nga ajo gjendje.
Ju lutemi vini re se shenja negative këtu nënkupton që ne po kryejmë ngjitje gradient.

Kjo është e gjitha për kodin, kodin e plotë mund ta gjeni këtu. le të diskutojmë disa disavantazhe të gradientit të politikave.

Disavantazhet:

Shumicën e kohës, Gradienti i Politikave konvergjon në maksimum lokal.
Metodat e gradientit të politikave kërkojnë një kohë të gjatë në trajnim.

Pra, kjo përfundon këtë artikull. Faleminderit që lexuat, shpresoj që të kënaqeni dhe keni qenë në gjendje të kuptoni atë që doja të shpjegoja. Shpresoj të lexoni artikujt e mi të ardhshëm. Hari Om…🙏

Referencat:

Mësimi përforcues
Ofruar nga Universiteti i Albertës. Specializimi i të mësuarit përforcues përbëhet nga 4 kurse që eksplorojnë fuqinë…www.coursera.org

Mësimi përforcues, botimi i dytë
Edicioni i ri i zgjeruar dhe i përditësuar ndjeshëm i një teksti të përdorur gjerësisht mbi të mësuarit përforcues, një nga më…mitpress.mit.edu.

Një hyrje në Gradientet e Politikave me Cartpole dhe Doom
nga Thomas Simonini Një hyrje në Gradientet e Politikave me Cartpole dhe Doom Mjedisi ynë për këtë artikull› Ky…www. freecodecamp.org

Aventurat në mësimin e makinerisë - Mësoni dhe eksploroni mësimin e makinerisë
Nga administratori | Mësimi i thellë, Gradient i politikave, Mësimi përforcues, TensorFlow 2.0 Në një seri postimesh të fundit, unë…adventuresinmachinelearning.com

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Programming Languages Software Engineering Java Nodejs Algorithms Front End Development Data Tech Computer Science Development AWS HTML CSS Neural Networks Angular ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Linear Regression