Nëse jeni fillestar, jam përpjekur të mbuloj të gjitha temat e nevojshme në termin Layman që duhet të lexoni…………

  1. Regresionit linear
  2. Pse quhet Regresion Linear?
  3. Llojet e regresionit linear ?
  4. E mbetur / Gabim
  5. Çfarë është funksioni i kostos dhe si ta minimizojmë atë?
  6. Koeficienti i korrelacionit Pearson
  7. Çfarë është kërkesa për shkallëzimin dhe llojet e veçorive?
  8. Metrikat e vlerësimit të regresionit
  9. Cilat janë konsideratat për MLR
  10. Si të zbuloni shumëkolinearitetin
  11. Zgjedhja e veçorive
  12. Shembull i regresionit linear

Regresionit linear

Regresioni linear është një lloj algoritmi ML i mbikëqyrur që llogarit lidhjen midis ndryshores së varur dhe ndryshores së pavarur. LR quhet edhe si line of best fitndër pikat e të dhënave. Përdoret për të parashikuar vlerën e ndryshores bazuar në një variabël tjetër. Është metoda më themelore dhe më e përdorur e analizës parashikuese në ML.

Pse quhet Regresion Linear?

Është një marrëdhënie lineare midis ndryshores së varur dhe ndryshores së pavarur. Qëllimi i tij është të vizatoni një vijë të drejtë që përshtatet më mirë.

Llojet e regresionit linear?

  1. Regresioni i thjeshtë linear (SLR):Është lloji më elementar i LR-së i cili ka një lidhje lineare midis ndryshores së varur dhe një ndryshoreje të pavarur.
    Në parashikimin e shitjeve të një kompanie me pakicë:
    Parashikimi i shitjeve është variabël i varur dhe Marketingu është variabël i pavarur.
  2. Regresioni linear i shumëfishtë (MLR):Ka një lidhje lineare midis ndryshoreve të varura dhe dy ose më shumë ndryshoreve të pavarura.

Ekuacioni linear:

Equation: y = mx + c
y = dependent variable 
m = slope or coefficient 
x = independent variable
c = y-intercept or constant

E mbetur / Gabim:

Diferenca midis vlerës aktuale dhe vlerës së parashikuar quhet si e mbetur. Linja e përshtatjes më të mirë do të ketë mbetje minimale.
Për linjën më të përshtatshme:

  • Shuma e të gjitha termave të gabimit do të jetë afër zeros.
  • Kushtet individuale të gabimit ose mbetjet do të jenë minimale.

Çfarë është funksioni i kostos dhe si ta minimizojmë atë?

Funksioni i kostos është një parametër i rëndësishëm që përcakton se sa mirë performon modeli i mësimit të makinerisë në grupin e të dhënave të dhëna. Ai përcakton sasinë midis vlerave aktuale dhe atyre të parashikuara.

Funksioni i kostos mund të minimizohet në 2 mënyra:

Diferencimi
- Gjetja e vlerës më të mirë për pjerrësinë dhe ndërprerjen y duke përdorur matematikën
- Gjetja e një pike ku RSS (shuma e mbetjes në katror) është minimale
- Vlera më e mirë funksioni i kostos është afër zeros

Zbritja e gradientit
- Metoda përsëritëse për të gjetur vlerën më të mirë të pjerrësisë dhe ndërprerjes y
- Përmirësimi gradual i pjerrësisë dhe ndërprerjes

Koeficienti i korrelacionit Pearson (r):

Ai mat se sa i fortë është lidhja lineare midis dy ndryshoreve të vazhdueshme.
Formula:

r varion nga -1 në 1 vlera më e madhe se 0 konsiderohet si relacion pozitiv.
Vlera e r më afër 0 konsiderohet si line of best fit.

Çfarë është kërkesa për shkallëzimin dhe llojet e veçorive?

Kur nuk duam që një variabël të dominojë mbi të tjerat, përveçse ne përdorim normalizimin ose standardizimin.

Normalizimi:
Normalizimi shkallëzon vlerën në intervalin prej [0,1]. Quhet gjithashtu si shkalla min-max. Është e dobishme kur të gjithë parametrat duhet të kenë të njëjtën shkallë pozitive. Pjesa e jashtme nga grupi i të dhënave janë humbur.

normalization = X — Xmin / Xmax — Xmin

Standardizimi:
Standardizimi rishkallëzon të dhënat që të kenë një mesatare (μ) prej 0 dhe devijimin standard (σ) prej 1. Pra, jep një grafik normal.

standardization = X — mean / std dev

Metrikat e vlerësimit të regresionit:

  1. GABIM/MBETUR
  2. GABIM MESATAR ABSOLUT (MAE)
  3. GABIM MESATAR KATROR (MSE)
  4. GABIM MESIMOR KATROR I RRËNJËS (RMSE)
  5. GABIM KATROR (R2)
  6. GABIM MESOR I PËRQINDJES ABSOLUTE (MAPE)

Cilat janë konsideratat për LR të shumëfishta?

  1. Zgjedhja e veçorive: Zgjedhja e grupit optimal të variablave për modelin përkatës dhe më të mirë.
  2. Mbipërshtatja:Kur ka shumë variabla të pranishëm në modelin e grupit të të dhënave bëhen tepër komplekse dhe përfundon duke memerizuar pikat e të dhënave gjatë trajnimit dhe nuk do të jetë në gjendje të performojë më mirë në të dhënat e testit.
  3. Multikolineariteti:Është fenomeni ku një model me disa variabla të pavarur, mund të ketë disa variabla të ndërlidhura.

Si të zbuloni shumëkolinearitetin:

Multikolineariteti e bën të vështirë gjetjen e cila variabël po kontribuon në të vërtetë në variablin e synuar. Heqja e rastësishme e variablit të korreluar mund të çojë në vlerën e koeficientit të lëkundjes. Mund të ndryshojë gjithashtu shenjën.
Shumëkolineariteti nuk ndikon në saktësinë e parashikimit.

  • Korrelacioni në çift:Kontrollimi i korrelacionit në çift midis variablave të pavarur.
  • Faktori i inflacionit të variancës (VIF): Në thelb shpjegon marrëdhënien midis një variabla të pavarur me të gjithë variablat e pavarur.
    Formula: VIF = 1/1- R2
    Nëse VIF › 10 i lartë, VIF ‹ 5 konsiderohet si vlerë e mirë, VIF = 5 pastaj vleftësim i mëtejshëm dhe inspektimi.

Zgjedhja e veçorive:

Zgjedhja e veçorisë optimale për modelin tonë është mjaft e nevojshme. Ka disa mënyra për të zgjedhur veçoritë.

  1. Duke provuar të gjitha kombinimet e mundshmepor kërkon kohë dhe praktikisht nuk është e mundur në bazën e të dhënave më të mëdha.
  2. Eleminimi manual i veçorive
    Ndërtimi i modelit
    Hiq veçoritë që nuk janë të dobishme me vlerën e lartë P
    Hiq veçoritë e tepërta duke përdorur (VIF, korrelacion)
    Rindërto model
  3. Qasja e automatizuar
    Eleminimi i veçorive rekursive (RFE)

Shembull i regresionit linear:

import numpy as np #library import  
from sklearn.linear_model import LinearRegression #regression class import
X_train = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
# y = 1 * x_0 + 2 * x_1 + 3
y_train = np.dot(X, np.array([1, 2])) + 3

lr = LinearRegression().fit(X_train, y_train) 
lr.score(X, y) 
lr.coef_ #slope
lr.intercept_ #y-intercept
lr.predict(np.array([[3, 5]])) #predicitng on test data

Linkedin: Dipesh Pimpale

"Abonohu" në Dipesh Pimpale njoftohu kur të postohet.
Navdeep Singh