Zbritja e gradientit është një algoritëm optimizimi i cili përdoret për të gjetur parametrat optimalë për një model të mësimit të makinës. Funksionon me idenë kryesore që ne duhet të ulim funksionin e kostos duke ndryshuar parametrat në një mënyrë të caktuar.

Kuptimi i zbritjes së gradientit me analogjinë e ngjitjes malore:

Le të konsiderojmë se jemi në një mal dhe objektivi ynë është të shkojmë në aeroplan në tatëpjetë. Një qasje e drejtë përpara do të ishte zbritja e tatëpjetë në drejtim të shpatit. Në mënyrë të ngjashme rrjeti ynë nervor ndjek të njëjtën analogji dhe përpiqet të shkojë në drejtimin e shpatit më të pjerrët. Çdo hap ne përpiqemi të ulim funksionin e kostos. Dhe siç u tha më parë qëllimi ynë do të ishte të arrijmë gradientin minimal që bëhet përmes këtyre hapave.

Siç shihet në imazhin e mësipërm, modeli përpiqet të ulë funksionin e kostos drejt minimumit global. Madhësia e hapave përcaktohet nga një parametër i quajtur shkalla e të mësuarit. Nëse madhësia e hapit është më e vogël, numri i hapave do të rritet në mënyrë drastike dhe do të marrë shumë kohë për t'u konverguar.

Imazhi i mësipërm tregon efektet e shkallës së të mësuarit për funksionin e kostos. Një shkallë optimale e të mësuarit na çon në pikën minimale me shpejtësi, ndërsa një shkallë më e madhe e të mësuarit mund të jetë shumë e rrezikshme pasi modeli nuk do të konvergonte.

Kuptimi i zbritjes së grupit, të plotë, stokastik të gradientit:

Zbritja e gradientit mund të ndahet në shumë lloje bazuar në numrin e mostrave që merr si hyrje. Nëse marrim një mostër në një kohë për të përditësuar peshat, do ta quajmë atë zbritje të gradientit stokastik. Ai llogarit prodhimin e modelit dhe bën përditësimin e peshës për çdo mostër veç e veç. Është forma më e shpejtë e përditësimit. Megjithatë, për shkak të rastësisë së tij, algoritmi nuk është i rregullt. Parametri përfundimtar që do të gjenim për shkak të kësaj mund të mos jetë shumë optimal.

Nga ana tjetër, zbritja e gradientit të grupit merr disa mostra të grupit të të dhënave pasi të dhënat dhe peshat përditësohen pas kalimit të një grupi të plotë. Është pak më e ngadaltë se zbritja e gradientit stokastik dhe më e shpejtë se zbritja e gradientit të plotë. Në rast të zbritjes së plotë të gradientit, peshat përditësohen pas përhapjes së përparme dhe prapa të të gjithë grupit të të dhënave. Kjo bëhet përmes llogaritjes së peshës_delta mbi të gjithë grupin e të dhënave dhe më pas llogaritjes së delta_peshës mbi të gjithë grupin e të dhënave. Kjo është forma më e ngadaltë e zbritjes së gradientit.

Kjo ishte një përmbledhje e shkurtër e algoritmeve të ndryshme të zbritjes së gradientit.