Krijimi i një modeli të parashikimit të rrezikut me një problem të çekuilibrit të klasës?

Mosbalancimi i klasës është një çështje e zakonshme që lind kur krijohen modele klasifikimi për parashikimin e rrezikut. Çfarë është një çekuilibër i klasës ju pyesni? Një çekuilibër i klasës thjesht do të thotë që popullsia që modeli juaj po vlerëson ka përmasa drastike të ndryshme për klasat pozitive dhe negative. Për shembull, nëse po përpiqeni të parashikoni nëse një pacient ka apo jo një sëmundje të rrallë (‹1% e popullsisë e ka këtë sëmundje) dhe madhësia e mostrës suaj të popullsisë është 5000 individë, do të prisnit që më pak se 50 individë ta kenë këtë sëmundje. sëmundje. Ky çekuilibër ndodh sepse më shumë se 4,950 individë nuk e kanë sëmundjen, ndërsa më pak se 50 e kanë.

Kohët e fundit lexova një punim që diskutonte nëse problemi i çekuilibrit të klasës duhet të adresohet kur krijohen modele të mësimit të makinerive. Ky punim, i titulluar "Dëmi i korrigjimeve të çekuilibrit të klasës për modelet e parashikimit të rrezikut: ilustrim dhe simulim duke përdorur regresionin logjistik", mund të gjendet "këtu". Ky punim u shkrua për të diskutuar performancën e modeleve të thjeshta të mësimit të makinerive në të dhëna me një çekuilibër të klasës, pasi zgjidhjet për çështjen e mosbalancimit të klasës kanë fituar interes të konsiderueshëm gjatë dekadës së fundit.

Zgjidhjet aktuale për mosbalancimin e klasës

Ka shumë mënyra për të adresuar mosbalancimin e klasave, por ky hulumtim u fokusua në mënyrë specifike në tre metoda të përdorura zakonisht: nën-kampionimi i rastësishëm (RUS), mbikampionimi i rastësishëm (ROS) dhe SMOTE (teknika e mbikampionimit të pakicave sintetike). Le të shqyrtojmë se çfarë përfshin secila prej këtyre metodave.

Nën-kampionimi i rastësishëm

Marrja e mostrës së rastësishme do të thotë që ju po i hiqni rastësisht vëzhgimet nga klasa e shumicës derisa klasa juaj e shumicës dhe e pakicës të kenë madhësi të barabartë. Një dobësi e madhe e kësaj metode është se në thelb po hedhni të dhëna mbi të cilat modeli juaj mund të trajnohet.

Mbingarkim i rastësishëm

Mbi-kampionimi i rastësishëm do të thotë që ju po dyfishoni rastësisht vëzhgimet nga klasa e pakicës derisa klasat tuaja të shumicës dhe pakicës të kenë madhësi të barabartë.

SMOTE

Teknika SMOTE përdor matjet bazë të distancës për të krijuar pika të reja për klasën e pakicës që ndodhen midis pikave aktuale. Nuk do të gërmoj shumë thellë në detajet më të imta të SMOTE, por imazhi i mëposhtëm jep një vizualizim të mirë për këtë proces.

Modelimi dhe rezultatet e parashikimit të rrezikut

Grupi që shkroi këtë punim analizoi të dhënat për gratë në premenopauzë me tumore ovariane për të përcaktuar nëse një grua e caktuar kishte apo jo një tumor malinj. Në të dhënat e tyre, afërsisht 20% e grave kishin një tumor malinj, i cili pasqyron një çekuilibër të moderuar të klasës për këto të dhëna. Këto të dhëna shkencëtarët përdorën një model të thjeshtë të regresionit logjistik për të parashikuar malinjitetin e një tumori. Një postim i mëparshëm në blog që kam shkruar diskuton në detaje regresionin logjistik, kështu që ju mund t'i referoheni "postimit këtu" nëse dëshironi pak më shumë sfond për këtë model.

Në kundërshtim me besimin tim të mëparshëm, ky hulumtim tregoi se një model i krijuar me të dhëna të pakorrigjuara performoi më mirë sesa të dhënat e modifikuara me RUS, ROS ose SMOTE. Modelet që u ndërtuan mbi të dhëna të korrigjuara prireshin të mbivlerësonin klasën e pakicës (tumoret malinje); në terma laikë, modelet parashikuan që më shumë gra të kishin tumore malinje sesa ishte në të vërtetë rasti. Ana negative e këtij lloji modeli është se më shumë gra do të kërkonin kujdes të mëtejshëm mjekësor për një tumor malinj sesa do të prisnim bazuar në shpërndarjen e popullsisë. Një nga metrikat kryesore që përdori ky ekip është rezultati AUC, ose Zona nën Kurbë. Rezultati pasqyron se sa mirë modeli mund të parashikojë pozitivet e vërteta. Zona llogaritet për lakoren ROC, e cila paraqet normën e vërtetë pozitive (TPR) kundrejt normës së rreme pozitive (FPR). Një rezultat AUC prej 1 pasqyron një model të përsosur sepse modeli identifikon saktë të gjitha pozitivet e vërteta për të gjithë gamën e mundshme të FPR (0-1).

Më poshtë është një figurë që vjen drejtpërdrejt nga punimi kërkimor; kjo figurë tregon grafikët e kutive dhe mustaqeve për rezultatin AUC të secilit model për madhësinë e mostrës së ndryshme (N) dhe numrin e parashikuesve (p).

Mund të shohim nga figura e mësipërme se për të gjitha rastet e testimit, rezultati mesatar AUC i të dhënave të pakorrigjuara është më i madh se ai i tre grupeve të të dhënave të korrigjuara. Mund të shohim gjithashtu se rezultatet mesatare të AUC priren të ndryshojnë më shumë ndërsa numri i parashikuesve të përdorur në model rritet.

Marrëdhënie (personale dhe të orientuara nga biznesi)

Fillimisht u tërhoqa nga ky punim kërkimor në veçanti sepse në postimin tim të fundit në blog, kisha një problem të çekuilibrit të klasës me grupin e të dhënave që përdora për një model të regresionit logjistik. Nuk kisha mësuar ende për mbikampionimin/nënkampionimin në bootcamp-in tim, por sapo e mësova, supozova se mund t'i përdorja ato teknika për të përmirësuar rikujtimin dhe saktësinë e modelit tim. Leximi i këtij punimi më bëri të rimendoj nevojën për të trajtuar gjithmonë një çështje të mosbalancimit të klasës; Tani e kuptoj se sa e rëndësishme është të kuptoni plotësisht kontekstin e biznesit të të dhënave/modelit tuaj përpara se të vendosni nëse do të adresoni ose jo mosbalancimin e klasës.

Për sa i përket shqyrtimit të një çekuilibri të klasës nga një këndvështrim biznesi, zbulova se është e rëndësishme të merret në konsideratë se si modeli i parashikimit të rrezikut ndikon në operacionet e një biznesi. Për shembull, në këtë skenar, nëse modeli ynë fillon të mbivlerësojë numrin e klasave pozitive (tumoret malinje), më shumë gra do të shënohen sipas nevojës për kujdes të mëtejshëm mjekësor kur në realitet nuk kanë nevojë për të. Kjo vjen me një kosto; spitali ose mjeku do të shpenzojnë më shumë para për analizat që nuk janë të nevojshme dhe gratë do të duhet të paguajnë për kujdesin mjekësor që në fakt nuk kërkohet. Gjithashtu, shikimi i secilës prej këtyre grave kërkon më shumë kohë nga mjekët që mund të ndihmojnë pacientët e tjerë që kërkojnë kujdes mjekësor. Gjeta një citim nga gazeta që me të vërtetë kap këtë ide: "Korrigjimi i çekuilibrit të klasës i ndjekur nga rikalibrimi ia vlen vetëm nëse korrigjimi i çekuilibrit çon në diskriminim më të mirë të modeleve që rezultojnë".

Kam në plan të ndjek postimin tim të mëparshëm në blog me analiza të mëtejshme për adresimin e çështjes specifike të çekuilibrit të klasës për të parë se si ndryshon performanca e modelit tim. Faleminderit që gjetët kohë për të lexuar postimin tim, dhe si gjithmonë, kodim i lumtur!

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Software Engineering Programming Languages Nodejs Algorithms Front End Development Java Data Computer Science Tech Development AWS HTML Angular CSS Neural Networks ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Learning