Regresioni kuantil është një zgjerim i algoritmit regresion linear. Ndonjëherë është problematike të plotësohen kushtet e regresionit linear (lineariteti, normaliteti, pavarësia e variablave, etj.). Këtu hyn në lojë regresioni sasior.

Siç mund ta dini gjithashtu, metoda origjinale me katrorin më të vogël e përdorur në regresionin linear përpiqet të vlerësojë mesataren e kushtëzuar të vlerës së synuar bazuar në variablat e saj të varur. Avantazhi që na jep regresioni kuantile është aftësia për të parashikuar një kuantile të caktuar të një ndryshoreje.

Imagjinoni që dëshironi të parashikoni një kuantile të 75-të të çmimit të një makine. Në fakt do të thotë që ne duam që gabimet tona të parashikimit të jenë negative në 75% të rasteve dhe në 25% të tjera të jenë pozitive. Duke modifikuar funksionin e humbjes, regresioni kuantile arrin efektin e përshkruar. Nën kapuç, ai thjesht rregullon pesha të ndryshme në varësi të llojit të gabimit. Ky lloj i humbjes së funksionit që përdoret në regresionin kuantile quhet humbje kuantile.

Humbja kuantile

Le të shohim formulën e humbjes kuantile. Parametri alfa i referohet kuantilit që do të dëshironim të parashikonim.

Vlera e humbjes kuantile varet nëse një parashikim është më i vogël ose më i madh se vlera reale. Për të kuptuar më mirë logjikën që qëndron pas saj, le të supozojmë se duhet të parashikojmë kuantilin e 80-të, kështu që vendosim vlerën e alfa si 0.8. Prandaj, formula duket si kjo:

Në thelb, në një rast të tillë, humbja kuantile do të penalizojë parashikimet e nënvlerësuara 4 herë më shumë se të mbivlerësuara. Në këtë mënyrë modeli do të jetë më kritik ndaj gabimeve të nënvlerësuara dhe do të parashikojë më shpesh vlera më të larta. Si rezultat, modeli i përshtatur mesatarisht do të mbivlerësojë rezultatet afërsisht në 80% të rasteve dhe në 20% do të prodhojë të nënvlerësuara.

Supozoni se kemi marrë dy parashikime për të njëjtin objektiv. Objektivi ka një vlerë 40, ndërsa parashikimet tona marrin vlerat 30 dhe 50. Le të llogarisim humbjen kuantile në të dyja rastet. Gabimi absolut (10) është i njëjtë në të dy rastet. Megjithatë, për 30 funksioni i humbjes do të ketë vlerën 0.8 * 10 = 8, ndërsa për 50 do të jetë i barabartë me 0.2 * 10 = 2.

Ky koncept i funksionit të humbjes është ilustruar në diagramin më poshtë, i cili tregon vlerat sasiore të humbjes për vlera të ndryshme të alfa kur vlera e vërtetë është 40.

Anasjelltas, nëse vlera e alfa ishte 0.2, atëherë parashikimet e mbivlerësuara do të penalizoheshin 4 herë më shumë se ato të nënvlerësuara.

Shembull

Ne do të përdorim një grup të dhënash sintetike me 10 000 mostra ku do të parashikojmë vlerësimet e lojtarëve në një lojë video bazuar në numrin e orëve të lojës.

Le t'i ndajmë të dhënat në tren dhe testojmë në proporcion 80:20:

Për krahasim, ne do të ndërtojmë 3 modele regresioni me vlera të ndryshme alfa: 0.2, 0.5 dhe 0.8. Secili prej modeleve të regresionit do të krijohet nga LightGBM. LightGBM lejon zgjidhjen e problemeve të regresionit kuantile duke specifikuar parametrin objektiv si 'kuantile' dhe duke kaluar një vlerë korresponduese të alfa.

Pas trajnimit të 3 modeleve, ne marrim parashikime prej tyre (rreshti 6).

Parashikimet vizualizohen në fragmentin e kodit më poshtë:

Mund të shohim qartë se me vlera më të mëdha të alfa, modelet priren të gjenerojnë rezultate më të mbivlerësuara. Për më tepër, ne mund të krahasojmë parashikimet e secilit model me të gjitha vlerat e synuara.

Kjo çon në daljen e mëposhtme:

Ju ndoshta vëzhgoni modelin nga dalja. Bazuar në këtë shembull, ne konkludojmë lehtësisht se modelet tona të parashikimit funksionojnë si duhet.

Gabimet e parashikimit të marra nga regresioni kuantile janë afërsisht negative në alfa * 100% të rasteve dhe janë pozitive në (1 — alfa) * 100% të rasteve.

konkluzioni

Ne kemi ecur përmes regresionit kuantile - një algoritëm shumë i fuqishëm që mund të përdoret për të parashikuar kuantile të disa variablave. Kodi i përdorur në këtë artikull është i disponueshëm këtu:



Faleminderit që lexuat! 🚀

Artikuj të tjerë në lidhje me mësimin e makinerive: