Një përmbledhje e algoritmeve të zbritjes së gradientit

Zbritja e gradientit është një algoritëm optimizimi i cili përdoret për të gjetur parametrat optimalë për një model të mësimit të makinës. Funksionon me idenë kryesore që ne duhet të ulim funksionin e kostos duke ndryshuar parametrat në një mënyrë të caktuar.

Kuptimi i zbritjes së gradientit me analogjinë e ngjitjes malore:

Le të konsiderojmë se jemi në një mal dhe objektivi ynë është të shkojmë në aeroplan në tatëpjetë. Një qasje e drejtë përpara do të ishte zbritja e tatëpjetë në drejtim të shpatit. Në mënyrë të ngjashme rrjeti ynë nervor ndjek të njëjtën analogji dhe përpiqet të shkojë në drejtimin e shpatit më të pjerrët. Çdo hap ne përpiqemi të ulim funksionin e kostos. Dhe siç u tha më parë qëllimi ynë do të ishte të arrijmë gradientin minimal që bëhet përmes këtyre hapave.

Siç shihet në imazhin e mësipërm, modeli përpiqet të ulë funksionin e kostos drejt minimumit global. Madhësia e hapave përcaktohet nga një parametër i quajtur shkalla e të mësuarit. Nëse madhësia e hapit është më e vogël, numri i hapave do të rritet në mënyrë drastike dhe do të marrë shumë kohë për t'u konverguar.

Imazhi i mësipërm tregon efektet e shkallës së të mësuarit për funksionin e kostos. Një shkallë optimale e të mësuarit na çon në pikën minimale me shpejtësi, ndërsa një shkallë më e madhe e të mësuarit mund të jetë shumë e rrezikshme pasi modeli nuk do të konvergonte.

Kuptimi i zbritjes së grupit, të plotë, stokastik të gradientit:

Zbritja e gradientit mund të ndahet në shumë lloje bazuar në numrin e mostrave që merr si hyrje. Nëse marrim një mostër në një kohë për të përditësuar peshat, do ta quajmë atë zbritje të gradientit stokastik. Ai llogarit prodhimin e modelit dhe bën përditësimin e peshës për çdo mostër veç e veç. Është forma më e shpejtë e përditësimit. Megjithatë, për shkak të rastësisë së tij, algoritmi nuk është i rregullt. Parametri përfundimtar që do të gjenim për shkak të kësaj mund të mos jetë shumë optimal.

Nga ana tjetër, zbritja e gradientit të grupit merr disa mostra të grupit të të dhënave pasi të dhënat dhe peshat përditësohen pas kalimit të një grupi të plotë. Është pak më e ngadaltë se zbritja e gradientit stokastik dhe më e shpejtë se zbritja e gradientit të plotë. Në rast të zbritjes së plotë të gradientit, peshat përditësohen pas përhapjes së përparme dhe prapa të të gjithë grupit të të dhënave. Kjo bëhet përmes llogaritjes së peshës_delta mbi të gjithë grupin e të dhënave dhe më pas llogaritjes së delta_peshës mbi të gjithë grupin e të dhënave. Kjo është forma më e ngadaltë e zbritjes së gradientit.

Kjo ishte një përmbledhje e shkurtër e algoritmeve të ndryshme të zbritjes së gradientit.

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Software Engineering Programming Languages Front End Development Java Nodejs Algorithms Data Tech Computer Science Development HTML AWS CSS Neural Networks Angular ChatGPT Code Typescript Tutorial Python Programming Learning To Code Developer Computer Vision NLP Open Source Productivity Reactjs