Shkallëzimi dhe normalizimi i veçorive

Përmbledhje
Shkallëzimi dhe normalizimi i veçorive janë teknika të parapërpunimit të përdorura në Inxhinierinë e Veçorive për të standardizuar gamën ose shpërndarjen e veçorive. Këto teknika sigurojnë që veçoritë të jenë në një shkallë të ngjashme, duke lejuar që modelet e mësimit të makinerive të performojnë në mënyrë optimale.

Pse shkallëzimi dhe normalizimi i veçorive?

Parandaloni mësimin e njëanshëm: Disa algoritme të mësimit të makinerive janë të ndjeshme ndaj shkallës së veçorive. Pa shkallëzim, veçoritë me përmasa më të mëdha mund të dominojnë procesin e të mësuarit, duke e anuar modelin drejt atyre veçorive.
Përmirësimi i konvergjencës: Shkallëzimi mund të ndihmojë në përshpejtimin e konvergjencës së algoritmeve të optimizimit të bazuara në gradient, siç është zbritja e gradientit.
Siguroni krahasime të drejta: Veçoritë e shkallëzimit lejojnë krahasime të drejta midis njësive të ndryshme ose shkallëve të matjes, duke shmangur interpretimet e shtrembëruara të rëndësisë së veçorive.

Teknika të zakonshme për shkallëzimin dhe normalizimin e veçorive

Shkallëzimi Min-Max (Normalizimi)

Rishkallëzon veçoritë në një gamë specifike, zakonisht midis 0 dhe 1.
Formula: X_scaled = (X — X_min) / (X_max — X_min), ku X është tipari origjinal, X_scaled është tipari i shkallëzuar, X_min është vlera minimale e X dhe X_max është vlera maksimale e X.
I përshtatshëm për veçori me një gamë të kufizuar dhe pa dallime të rëndësishme.

Grupi i të dhënave përpara shkallëzimit Min-Max:

Grupi i të dhënave pas shkallëzimit Min-Max:

Në këtë shembull, shkallëzimi min-maks rishkallëzon vlerat e çdo veçori në një interval specifik (zakonisht midis 0 dhe 1). Vlera minimale në grupin e të dhënave origjinale bëhet 0, dhe vlera maksimale bëhet 1. Vlerat e tjera janë shkallëzuar proporcionalisht brenda këtij intervali.

Standardizimi (Shkallëzimi i pikëve Z)

Transformon veçoritë që të kenë variancë mesatare dhe njësi zero.
Formula: X_scaled = (X — X_mean) / X_std, ku X është tipari origjinal, X_scaled është tipari i shkallëzuar, X_mean është mesatarja e X dhe X_std është devijimi standard i X.
I përshtatshëm për veçori me shpërndarje të panjohura ose jo normale.

Grupi i të dhënave përpara standardizimit:

Grupi i të dhënave pas standardizimit:

Në këtë shembull, standardizimi (shkallëzimi i rezultatit Z) i transformon vlerat e çdo veçorie që të kenë një mesatare prej 0 dhe një devijim standard prej 1. Vlerat origjinale zhvendosen dhe rishkallëzohen sipas mesatares dhe devijimit standard të veçorisë.

Shkallëzimi i fortë

Rishkallëzon veçoritë duke zbritur mesataren dhe duke e ndarë me diapazonin ndërkuartilor (IQR).
Formula:X_shkallëzuar = (X — X_median) / IQR, ku X është tipari origjinal, X_shkallëzohet është tipari i shkallëzuar, X_median është mesatarja e X dhe IQR është diapazoni ndërkuartilor.
I qëndrueshëm ndaj pranisë së pikave të jashtme, duke e bërë atë të përshtatshëm për veçori me shpërndarje të jashtme ose të shtrembëruara.

Grupi i të dhënave përpara shkallëzimit të fortë:

Grupi i të dhënave pas shkallëzimit të fortë:

Në këtë shembull, shkallëzimi i fortë rishkallëzon vlerat e çdo veçorie duke hequr mesataren dhe duke e ndarë me diapazonin ndërkuartilor (IQR). Shkallëzimi i fortë është më pak i ndjeshëm ndaj të jashtmeve në krahasim me teknikat e tjera të shkallëzimit.

Transformimi i regjistrit

Zbaton funksionin e logaritmit për veçoritë, të cilat mund të ndihmojnë në normalizimin e shpërndarjeve të ankoruara.
Veçanërisht i dobishëm për veçoritë me shpërndarje shumë të animuar ose me bisht të gjatë.

Grupi i të dhënave përpara transformimit të regjistrit:

Grupi i të dhënave pas transformimit të regjistrit:

Në këtë shembull, transformimi log zbatohet për secilën vlerë në grupin e të dhënave duke marrë logaritmin me bazën 10. Vlerat që rezultojnë përfaqësojnë shkallën logaritmike të të dhënave origjinale.

Konsideratat dhe praktikat më të mira

Shkallëzimi i veçorive: Aplikoni shkallëzimin e veçorive përpara se të futni të dhënat në modelin e mësimit të makinerive, me përjashtim të algoritmeve që janë të pandryshueshme në shkallë, siç janë pemët e vendimit.
Ruajtja e konsistencës: Sigurohuni që shkallëzimi të kryhet vazhdimisht në grupet e të dhënave të trajnimit, vërtetimit dhe testimit për të shmangur paraqitjen e paragjykimeve.
Shmangni rrjedhjen e të dhënave: Shkalloni veçoritë bazuar në statistikat e të dhënave të trajnimit për të parandaluar rrjedhjen e informacionit nga grupi i testimit.
Njohuri mbi domenin: Merrni parasysh karakteristikat specifike të fushës së problemit kur zgjidhni teknikën e duhur të shkallëzimit.
Vlerësoni ndikimin: Vlerësoni ndikimin e shkallëzimit në performancën e modelit përmes vlerësimit të kryqëzuar ose metodave të tjera të vlerësimit.
Mos harroni, zgjedhja e teknikës së shkallëzimit të veçorive varet nga natyra e të dhënave dhe kërkesat e algoritmit të mësimit të makinës që përdoret.

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Software Engineering Programming Languages Nodejs Algorithms Front End Development Java Data Computer Science Tech Development AWS HTML Angular CSS Neural Networks ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Learning