Mosbalancimi i klasës është një çështje e zakonshme që lind kur krijohen modele klasifikimi për parashikimin e rrezikut. Çfarë është një çekuilibër i klasës ju pyesni? Një çekuilibër i klasës thjesht do të thotë që popullsia që modeli juaj po vlerëson ka përmasa drastike të ndryshme për klasat pozitive dhe negative. Për shembull, nëse po përpiqeni të parashikoni nëse një pacient ka apo jo një sëmundje të rrallë (‹1% e popullsisë e ka këtë sëmundje) dhe madhësia e mostrës suaj të popullsisë është 5000 individë, do të prisnit që më pak se 50 individë ta kenë këtë sëmundje. sëmundje. Ky çekuilibër ndodh sepse më shumë se 4,950 individë nuk e kanë sëmundjen, ndërsa më pak se 50 e kanë.

Kohët e fundit lexova një punim që diskutonte nëse problemi i çekuilibrit të klasës duhet të adresohet kur krijohen modele të mësimit të makinerive. Ky punim, i titulluar "Dëmi i korrigjimeve të çekuilibrit të klasës për modelet e parashikimit të rrezikut: ilustrim dhe simulim duke përdorur regresionin logjistik", mund të gjendet "këtu". Ky punim u shkrua për të diskutuar performancën e modeleve të thjeshta të mësimit të makinerive në të dhëna me një çekuilibër të klasës, pasi zgjidhjet për çështjen e mosbalancimit të klasës kanë fituar interes të konsiderueshëm gjatë dekadës së fundit.

Zgjidhjet aktuale për mosbalancimin e klasës

Ka shumë mënyra për të adresuar mosbalancimin e klasave, por ky hulumtim u fokusua në mënyrë specifike në tre metoda të përdorura zakonisht: nën-kampionimi i rastësishëm (RUS), mbikampionimi i rastësishëm (ROS) dhe SMOTE (teknika e mbikampionimit të pakicave sintetike). Le të shqyrtojmë se çfarë përfshin secila prej këtyre metodave.

Nën-kampionimi i rastësishëm

Marrja e mostrës së rastësishme do të thotë që ju po i hiqni rastësisht vëzhgimet nga klasa e shumicës derisa klasa juaj e shumicës dhe e pakicës të kenë madhësi të barabartë. Një dobësi e madhe e kësaj metode është se në thelb po hedhni të dhëna mbi të cilat modeli juaj mund të trajnohet.

Mbingarkim i rastësishëm

Mbi-kampionimi i rastësishëm do të thotë që ju po dyfishoni rastësisht vëzhgimet nga klasa e pakicës derisa klasat tuaja të shumicës dhe pakicës të kenë madhësi të barabartë.

SMOTE

Teknika SMOTE përdor matjet bazë të distancës për të krijuar pika të reja për klasën e pakicës që ndodhen midis pikave aktuale. Nuk do të gërmoj shumë thellë në detajet më të imta të SMOTE, por imazhi i mëposhtëm jep një vizualizim të mirë për këtë proces.

Modelimi dhe rezultatet e parashikimit të rrezikut

Grupi që shkroi këtë punim analizoi të dhënat për gratë në premenopauzë me tumore ovariane për të përcaktuar nëse një grua e caktuar kishte apo jo një tumor malinj. Në të dhënat e tyre, afërsisht 20% e grave kishin një tumor malinj, i cili pasqyron një çekuilibër të moderuar të klasës për këto të dhëna. Këto të dhëna shkencëtarët përdorën një model të thjeshtë të regresionit logjistik për të parashikuar malinjitetin e një tumori. Një postim i mëparshëm në blog që kam shkruar diskuton në detaje regresionin logjistik, kështu që ju mund t'i referoheni "postimit këtu" nëse dëshironi pak më shumë sfond për këtë model.

Në kundërshtim me besimin tim të mëparshëm, ky hulumtim tregoi se një model i krijuar me të dhëna të pakorrigjuara performoi më mirë sesa të dhënat e modifikuara me RUS, ROS ose SMOTE. Modelet që u ndërtuan mbi të dhëna të korrigjuara prireshin të mbivlerësonin klasën e pakicës (tumoret malinje); në terma laikë, modelet parashikuan që më shumë gra të kishin tumore malinje sesa ishte në të vërtetë rasti. Ana negative e këtij lloji modeli është se më shumë gra do të kërkonin kujdes të mëtejshëm mjekësor për një tumor malinj sesa do të prisnim bazuar në shpërndarjen e popullsisë. Një nga metrikat kryesore që përdori ky ekip është rezultati AUC, ose Zona nën Kurbë. Rezultati pasqyron se sa mirë modeli mund të parashikojë pozitivet e vërteta. Zona llogaritet për lakoren ROC, e cila paraqet normën e vërtetë pozitive (TPR) kundrejt normës së rreme pozitive (FPR). Një rezultat AUC prej 1 pasqyron një model të përsosur sepse modeli identifikon saktë të gjitha pozitivet e vërteta për të gjithë gamën e mundshme të FPR (0-1).

Më poshtë është një figurë që vjen drejtpërdrejt nga punimi kërkimor; kjo figurë tregon grafikët e kutive dhe mustaqeve për rezultatin AUC të secilit model për madhësinë e mostrës së ndryshme (N) dhe numrin e parashikuesve (p).

Mund të shohim nga figura e mësipërme se për të gjitha rastet e testimit, rezultati mesatar AUC i të dhënave të pakorrigjuara është më i madh se ai i tre grupeve të të dhënave të korrigjuara. Mund të shohim gjithashtu se rezultatet mesatare të AUC priren të ndryshojnë më shumë ndërsa numri i parashikuesve të përdorur në model rritet.

Marrëdhënie (personale dhe të orientuara nga biznesi)

Fillimisht u tërhoqa nga ky punim kërkimor në veçanti sepse në postimin tim të fundit në blog, kisha një problem të çekuilibrit të klasës me grupin e të dhënave që përdora për një model të regresionit logjistik. Nuk kisha mësuar ende për mbikampionimin/nënkampionimin në bootcamp-in tim, por sapo e mësova, supozova se mund t'i përdorja ato teknika për të përmirësuar rikujtimin dhe saktësinë e modelit tim. Leximi i këtij punimi më bëri të rimendoj nevojën për të trajtuar gjithmonë një çështje të mosbalancimit të klasës; Tani e kuptoj se sa e rëndësishme është të kuptoni plotësisht kontekstin e biznesit të të dhënave/modelit tuaj përpara se të vendosni nëse do të adresoni ose jo mosbalancimin e klasës.

Për sa i përket shqyrtimit të një çekuilibri të klasës nga një këndvështrim biznesi, zbulova se është e rëndësishme të merret në konsideratë se si modeli i parashikimit të rrezikut ndikon në operacionet e një biznesi. Për shembull, në këtë skenar, nëse modeli ynë fillon të mbivlerësojë numrin e klasave pozitive (tumoret malinje), më shumë gra do të shënohen sipas nevojës për kujdes të mëtejshëm mjekësor kur në realitet nuk kanë nevojë për të. Kjo vjen me një kosto; spitali ose mjeku do të shpenzojnë më shumë para për analizat që nuk janë të nevojshme dhe gratë do të duhet të paguajnë për kujdesin mjekësor që në fakt nuk kërkohet. Gjithashtu, shikimi i secilës prej këtyre grave kërkon më shumë kohë nga mjekët që mund të ndihmojnë pacientët e tjerë që kërkojnë kujdes mjekësor. Gjeta një citim nga gazeta që me të vërtetë kap këtë ide: "Korrigjimi i çekuilibrit të klasës i ndjekur nga rikalibrimi ia vlen vetëm nëse korrigjimi i çekuilibrit çon në diskriminim më të mirë të modeleve që rezultojnë".

Kam në plan të ndjek postimin tim të mëparshëm në blog me analiza të mëtejshme për adresimin e çështjes specifike të çekuilibrit të klasës për të parë se si ndryshon performanca e modelit tim. Faleminderit që gjetët kohë për të lexuar postimin tim, dhe si gjithmonë, kodim i lumtur!