Humbja kuantile dhe regresioni kuantile

Regresioni kuantil është një zgjerim i algoritmit regresion linear. Ndonjëherë është problematike të plotësohen kushtet e regresionit linear (lineariteti, normaliteti, pavarësia e variablave, etj.). Këtu hyn në lojë regresioni sasior.

Siç mund ta dini gjithashtu, metoda origjinale me katrorin më të vogël e përdorur në regresionin linear përpiqet të vlerësojë mesataren e kushtëzuar të vlerës së synuar bazuar në variablat e saj të varur. Avantazhi që na jep regresioni kuantile është aftësia për të parashikuar një kuantile të caktuar të një ndryshoreje.

Imagjinoni që dëshironi të parashikoni një kuantile të 75-të të çmimit të një makine. Në fakt do të thotë që ne duam që gabimet tona të parashikimit të jenë negative në 75% të rasteve dhe në 25% të tjera të jenë pozitive. Duke modifikuar funksionin e humbjes, regresioni kuantile arrin efektin e përshkruar. Nën kapuç, ai thjesht rregullon pesha të ndryshme në varësi të llojit të gabimit. Ky lloj i humbjes së funksionit që përdoret në regresionin kuantile quhet humbje kuantile.

Humbja kuantile

Le të shohim formulën e humbjes kuantile. Parametri alfa i referohet kuantilit që do të dëshironim të parashikonim.

Vlera e humbjes kuantile varet nëse një parashikim është më i vogël ose më i madh se vlera reale. Për të kuptuar më mirë logjikën që qëndron pas saj, le të supozojmë se duhet të parashikojmë kuantilin e 80-të, kështu që vendosim vlerën e alfa si 0.8. Prandaj, formula duket si kjo:

Në thelb, në një rast të tillë, humbja kuantile do të penalizojë parashikimet e nënvlerësuara 4 herë më shumë se të mbivlerësuara. Në këtë mënyrë modeli do të jetë më kritik ndaj gabimeve të nënvlerësuara dhe do të parashikojë më shpesh vlera më të larta. Si rezultat, modeli i përshtatur mesatarisht do të mbivlerësojë rezultatet afërsisht në 80% të rasteve dhe në 20% do të prodhojë të nënvlerësuara.

Supozoni se kemi marrë dy parashikime për të njëjtin objektiv. Objektivi ka një vlerë 40, ndërsa parashikimet tona marrin vlerat 30 dhe 50. Le të llogarisim humbjen kuantile në të dyja rastet. Gabimi absolut (10) është i njëjtë në të dy rastet. Megjithatë, për 30 funksioni i humbjes do të ketë vlerën 0.8 * 10 = 8, ndërsa për 50 do të jetë i barabartë me 0.2 * 10 = 2.

Ky koncept i funksionit të humbjes është ilustruar në diagramin më poshtë, i cili tregon vlerat sasiore të humbjes për vlera të ndryshme të alfa kur vlera e vërtetë është 40.

Anasjelltas, nëse vlera e alfa ishte 0.2, atëherë parashikimet e mbivlerësuara do të penalizoheshin 4 herë më shumë se ato të nënvlerësuara.

Shembull

Ne do të përdorim një grup të dhënash sintetike me 10 000 mostra ku do të parashikojmë vlerësimet e lojtarëve në një lojë video bazuar në numrin e orëve të lojës.

Le t'i ndajmë të dhënat në tren dhe testojmë në proporcion 80:20:

Për krahasim, ne do të ndërtojmë 3 modele regresioni me vlera të ndryshme alfa: 0.2, 0.5 dhe 0.8. Secili prej modeleve të regresionit do të krijohet nga LightGBM. LightGBM lejon zgjidhjen e problemeve të regresionit kuantile duke specifikuar parametrin objektiv si 'kuantile' dhe duke kaluar një vlerë korresponduese të alfa.

Pas trajnimit të 3 modeleve, ne marrim parashikime prej tyre (rreshti 6).

Parashikimet vizualizohen në fragmentin e kodit më poshtë:

Mund të shohim qartë se me vlera më të mëdha të alfa, modelet priren të gjenerojnë rezultate më të mbivlerësuara. Për më tepër, ne mund të krahasojmë parashikimet e secilit model me të gjitha vlerat e synuara.

Kjo çon në daljen e mëposhtme:

Ju ndoshta vëzhgoni modelin nga dalja. Bazuar në këtë shembull, ne konkludojmë lehtësisht se modelet tona të parashikimit funksionojnë si duhet.

Gabimet e parashikimit të marra nga regresioni kuantile janë afërsisht negative në alfa * 100% të rasteve dhe janë pozitive në (1 — alfa) * 100% të rasteve.

konkluzioni

Ne kemi ecur përmes regresionit kuantile - një algoritëm shumë i fuqishëm që mund të përdoret për të parashikuar kuantile të disa variablave. Kodi i përdorur në këtë artikull është i disponueshëm këtu:

ML-medium/quantile_regression.ipynb në master · slavafive/ML-medium
Nuk mund ta kryesh atë veprim në këtë moment. Jeni identifikuar me një skedë ose dritare tjetër. Keni dalë në një skedë tjetër ose…github.com

Faleminderit që lexuat! 🚀

Artikuj të tjerë në lidhje me mësimin e makinerive:

"Regresioni linear nga e para" 📉
Fqinjët më të afërt të përafërt me fjalë të thjeshta ✍️

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Programming Languages Software Engineering Java Nodejs Algorithms Front End Development Data Tech Computer Science Development AWS HTML CSS Neural Networks Angular ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Linear Regression