Nëse jeni fillestar, jam përpjekur të mbuloj të gjitha temat e nevojshme në termin Layman që duhet të lexoni…………
- Regresionit linear
- Pse quhet Regresion Linear?
- Llojet e regresionit linear ?
- E mbetur / Gabim
- Çfarë është funksioni i kostos dhe si ta minimizojmë atë?
- Koeficienti i korrelacionit Pearson
- Çfarë është kërkesa për shkallëzimin dhe llojet e veçorive?
- Metrikat e vlerësimit të regresionit
- Cilat janë konsideratat për MLR
- Si të zbuloni shumëkolinearitetin
- Zgjedhja e veçorive
- Shembull i regresionit linear
Regresionit linear
Regresioni linear është një lloj algoritmi ML i mbikëqyrur që llogarit lidhjen midis ndryshores së varur dhe ndryshores së pavarur. LR quhet edhe si line of best fit
ndër pikat e të dhënave. Përdoret për të parashikuar vlerën e ndryshores bazuar në një variabël tjetër. Është metoda më themelore dhe më e përdorur e analizës parashikuese në ML.
Pse quhet Regresion Linear?
Është një marrëdhënie lineare midis ndryshores së varur dhe ndryshores së pavarur. Qëllimi i tij është të vizatoni një vijë të drejtë që përshtatet më mirë.
Llojet e regresionit linear?
- Regresioni i thjeshtë linear (SLR):Është lloji më elementar i LR-së i cili ka një lidhje lineare midis ndryshores së varur dhe një ndryshoreje të pavarur.
Në parashikimin e shitjeve të një kompanie me pakicë:
Parashikimi i shitjeve është variabël i varur dhe Marketingu është variabël i pavarur. - Regresioni linear i shumëfishtë (MLR):Ka një lidhje lineare midis ndryshoreve të varura dhe dy ose më shumë ndryshoreve të pavarura.
Ekuacioni linear:
Equation: y = mx + c y = dependent variable m = slope or coefficient x = independent variable c = y-intercept or constant
E mbetur / Gabim:
Diferenca midis vlerës aktuale dhe vlerës së parashikuar quhet si e mbetur. Linja e përshtatjes më të mirë do të ketë mbetje minimale.
Për linjën më të përshtatshme:
- Shuma e të gjitha termave të gabimit do të jetë afër zeros.
- Kushtet individuale të gabimit ose mbetjet do të jenë minimale.
Çfarë është funksioni i kostos dhe si ta minimizojmë atë?
Funksioni i kostos është një parametër i rëndësishëm që përcakton se sa mirë performon modeli i mësimit të makinerisë në grupin e të dhënave të dhëna. Ai përcakton sasinë midis vlerave aktuale dhe atyre të parashikuara.
Funksioni i kostos mund të minimizohet në 2 mënyra:
Diferencimi
- Gjetja e vlerës më të mirë për pjerrësinë dhe ndërprerjen y duke përdorur matematikën
- Gjetja e një pike ku RSS (shuma e mbetjes në katror) është minimale
- Vlera më e mirë funksioni i kostos është afër zeros
Zbritja e gradientit
- Metoda përsëritëse për të gjetur vlerën më të mirë të pjerrësisë dhe ndërprerjes y
- Përmirësimi gradual i pjerrësisë dhe ndërprerjes
Koeficienti i korrelacionit Pearson (r):
Ai mat se sa i fortë është lidhja lineare midis dy ndryshoreve të vazhdueshme.
Formula:
r varion nga -1 në 1 vlera më e madhe se 0 konsiderohet si relacion pozitiv.
Vlera e r më afër 0 konsiderohet si line of best fit.
Çfarë është kërkesa për shkallëzimin dhe llojet e veçorive?
Kur nuk duam që një variabël të dominojë mbi të tjerat, përveçse ne përdorim normalizimin ose standardizimin.
Normalizimi:
Normalizimi shkallëzon vlerën në intervalin prej [0,1]. Quhet gjithashtu si shkalla min-max. Është e dobishme kur të gjithë parametrat duhet të kenë të njëjtën shkallë pozitive. Pjesa e jashtme nga grupi i të dhënave janë humbur.
normalization = X — Xmin / Xmax — Xmin
Standardizimi:
Standardizimi rishkallëzon të dhënat që të kenë një mesatare (μ) prej 0 dhe devijimin standard (σ) prej 1. Pra, jep një grafik normal.
standardization = X — mean / std dev
Metrikat e vlerësimit të regresionit:
- GABIM/MBETUR
- GABIM MESATAR ABSOLUT (MAE)
- GABIM MESATAR KATROR (MSE)
- GABIM MESIMOR KATROR I RRËNJËS (RMSE)
- GABIM KATROR (R2)
- GABIM MESOR I PËRQINDJES ABSOLUTE (MAPE)
Cilat janë konsideratat për LR të shumëfishta?
- Zgjedhja e veçorive: Zgjedhja e grupit optimal të variablave për modelin përkatës dhe më të mirë.
- Mbipërshtatja:Kur ka shumë variabla të pranishëm në modelin e grupit të të dhënave bëhen tepër komplekse dhe përfundon duke memerizuar pikat e të dhënave gjatë trajnimit dhe nuk do të jetë në gjendje të performojë më mirë në të dhënat e testit.
- Multikolineariteti:Është fenomeni ku një model me disa variabla të pavarur, mund të ketë disa variabla të ndërlidhura.
Si të zbuloni shumëkolinearitetin:
Multikolineariteti e bën të vështirë gjetjen e cila variabël po kontribuon në të vërtetë në variablin e synuar. Heqja e rastësishme e variablit të korreluar mund të çojë në vlerën e koeficientit të lëkundjes. Mund të ndryshojë gjithashtu shenjën.
Shumëkolineariteti nuk ndikon në saktësinë e parashikimit.
- Korrelacioni në çift:Kontrollimi i korrelacionit në çift midis variablave të pavarur.
- Faktori i inflacionit të variancës (VIF): Në thelb shpjegon marrëdhënien midis një variabla të pavarur me të gjithë variablat e pavarur.
Formula:VIF = 1/1- R2
Nëse VIF › 10 i lartë, VIF ‹ 5 konsiderohet si vlerë e mirë, VIF = 5 pastaj vleftësim i mëtejshëm dhe inspektimi.
Zgjedhja e veçorive:
Zgjedhja e veçorisë optimale për modelin tonë është mjaft e nevojshme. Ka disa mënyra për të zgjedhur veçoritë.
- Duke provuar të gjitha kombinimet e mundshmepor kërkon kohë dhe praktikisht nuk është e mundur në bazën e të dhënave më të mëdha.
- Eleminimi manual i veçorive
Ndërtimi i modelit
Hiq veçoritë që nuk janë të dobishme me vlerën e lartë P
Hiq veçoritë e tepërta duke përdorur (VIF, korrelacion)
Rindërto model - Qasja e automatizuar
Eleminimi i veçorive rekursive (RFE)
Shembull i regresionit linear:
import numpy as np #library import from sklearn.linear_model import LinearRegression #regression class import X_train = np.array([[1, 1], [1, 2], [2, 2], [2, 3]]) # y = 1 * x_0 + 2 * x_1 + 3 y_train = np.dot(X, np.array([1, 2])) + 3 lr = LinearRegression().fit(X_train, y_train) lr.score(X, y) lr.coef_ #slope lr.intercept_ #y-intercept lr.predict(np.array([[3, 5]])) #predicitng on test data
Linkedin: Dipesh Pimpale
"Abonohu" në Dipesh Pimpale njoftohu kur të postohet.
Navdeep Singh