Ky është një artikull tjetër mbi arsyet e "dështimeve të projekteve të shkencës së të dhënave". Megjithatë, duhet të paraprihet me një kujtesë që ne të bëjmë një hap prapa dhe të pyesim nëse projektet me të vërtetë po dështojnë së pari përpara se të gërmojmë në arsyet e dështimit të tyre, dhe "Pt I i kësaj serie" sfidon narrativën popullore të 80% Shkalla e dështimit të projektit të shkencës së të dhënave.

Sidoqoftë, dështime ka dhe do të ketë për aq kohë sa ekziston Shkenca e të Dhënave. Ky artikull synon të shmangë arsyet e përmendura zakonisht, por jo më pak të rëndësishme si mungesa e infrastrukturës dhe të fokusohet më shumë në fushën e papritur të metodologjisë, në të cilën, në fund të fundit, supozohet se shkencëtarët e të dhënave janë të shkëlqyera, por ku megjithatë ka disa mbikëqyrje thelbësore dhe të përsëritura. Këtu ato nuk janë në një rend të veçantë rëndësie:

Optimizëm i tepërt nëpërmjet mos llogaritjes për krahasime të shumëfishta

Ekipet e Shkencës së të Dhënave shpesh kryejnë shumë teste hipotezash në të njëjtën kohë, veçanërisht nëse janë duke eksperimentuar me shumë variacione ose ndryshime shumë shpejt. Ata mund të hasin në çështje të shumëfishta krahasimesh, por nuk e dinë se duhet të merren me to. Le të shohim se cila është çështja me krahasimet e shumta që lindin nga ekzekutimi i shumë testeve të hipotezave në të njëjtën kohë.

Nëse keni 30 hipoteza për të testuar dhe një nivel rëndësie prej 0,05, sa është probabiliteti për të vëzhguar të paktën një rezultat të rëndësishëm vetëm për shkak të rastësisë?

P (të paktën një rezultat domethënës) = 1 − P (pa rezultate domethënëse) = 1 − (1 − 0,05)3⁰ ≈ 0,79.

Këtu, ne kemi një shans pothuajse 80% për të vëzhguar të paktën një rezultat me rëndësi statistikore, edhe nëse të gjitha testet nuk janë në të vërtetë statistikisht domethënëse. Deklarata e "rreme" e rëndësisë statistikore padyshim mund të çojë në disa vendime tepër optimiste dhe jooptimale, duke çuar në performancën e dobët të projekteve të Data Science dhe rekomandimeve të tyre.

Parashikime të shkëlqyera, strategji jooptimale

Strategjia mund të perceptohet si krahina e shkencëtarëve jo të të dhënave, por një pjesë e madhe e strategjisë mund të propozohet ose fiksohet gjithashtu nga shkencëtarët e të dhënave, pasi shpesh ka elementë shumë sasiorë për shumë strategji standarde të biznesit, veçanërisht ato që kanë të bëjnë me çmimet dhe marketingun.

Çështja, megjithatë, është se shkencëtarët e të dhënave janë fokusuar në mënyrë konvencionale, deri më sot, vetëm në parashikimin, dhe në një masë më të vogël, konkluzionet statistikore. Fushat nga strategjitë e optimizimit dhe çmimeve të Ekonomisë dhe Operacioneve, të cilat janë, në të kundërt, më përcaktuese (d.m.th. kanë një zgjidhje fikse, të parashikueshme që nuk bazohet në gabime të rastësishme për aq kohë sa supozime të caktuara, të cilat megjithatë bazohen në të dhëna empirike ose spekulime rreth tyre) , shpesh përjashtohen nga kanoni i një trajektoreje të të mësuarit dhe karrierës së Shkencës së të Dhënave, shumë në dëm të shumë projekteve të Shkencës së të Dhënave.

Le t'i hedhim një sy abonimeve. Shitja e një malli në vetvete, shitja e një malli vetëm nëse bashkohet me mallra të tjera, dhe ofrimi i të dyja opsioneve të porositjes së një malli veçmas dhe në një pako, shpesh çojnë në rritjen e të ardhurave përkatësisht. Kjo bazohet në supozime të caktuara rreth njerëzve që kanë kurba të ndryshme të kërkesës për secilin produkt dhe mund të demonstrohet matematikisht. Ky është një shembull i llojit të ushtrimit përcaktues të diskutuar më parë.

Është e mundur që shumë projekte të Shkencës së të Dhënave po dështojnë thjesht sepse kompania po përdor një model biznesi jooptimal, d.m.th. ata duhet të ofrojnë vërtet të dyja opsionet e shitjes së një produkti individualisht dhe shitjes së tij në një grup, por po ofrojnë vetëm një opsion. Parashikimet e shkëlqyera dhe konkluzionet statistikore nuk janë zbutës të përsosur ndaj modeleve jooptimale të biznesit dhe Shkenca e të Dhënave duhet të zgjerohet në territorin çuditërisht të paeksploruar të përdorimit të metodave sasiore për të vlerësuar dhe rregulluar modelet e biznesit. Në fund të fundit, nuk ka asnjë arsye bindëse që shkencëtarët e të dhënave duhet të kenë kritere përfshirje-përjashtimi për llojet e modeleve matematikore për të cilat duhet të interesohen – në fund të fundit është e gjitha matematika në thelbin e saj!

Regresioni logjistik: Interpretime të gabuara të madhësisë së efektit

Megjithëse ajo që do të vijojë është padyshim shumë anekdotike, ky artikull është mjaft i sigurt në rekomandimin e lexuesit që të hapë një numër projektesh GitHub për të verifikuar këto pretendime.

Koeficientët e regresionit shfaqen me sa duket për t'u treguar palëve të interesuara se sa një ndryshore hyrëse është e lidhur me variablin e rezultatit. Veçanërisht nëse vjen me një vlerë të vogël p (zakonisht rreth 0,05 edhe pse askush nuk i ndjek më këto pragje të vështira, përveç në provat klinike), një palë e interesuar mund të vendosë të ndërmarrë veprime për variablin e hyrjes.

Megjithatë, një çështje e zakonshme është se një koeficient i regresionit logjistik shpesh keqinterpretohet si ai i një regresioni të zakonshëm të katrorëve më të vegjël (OLS), domethënë thjesht do të thotë: kur x rritet me një njësi, y ndryshon nga sasia e treguar nga koeficienti i regresionit, gjithçka tjetër të mbajtur konstante. Një koeficient i regresionit logjistik me të vërtetë do të thotë që, nëse e rritni X me një njësi, koeficienti i shprehur është raporti i gjasave. Siç mund ta imagjinoni, një interpretim i koeficientit të regresionit OLS i përdorur në një regresion logjistik mund të çojë në një madhësi efekti shumë të ndryshme nga ajo e vërteta. Kështu, kompanitë mund të nënvlerësojnë ose mbivlerësojnë në masë të madhe rëndësinë e një variabli në përcaktimin e rezultatit (nëse ka vërtet një efekt shkakësor dhe jo një lidhje të thjeshtë që parashtrohet në radhë të parë) dhe të vendosin gabimisht në prioritet levat për të tërhequr.

Prioritetizimi i metodës dhe stilit përpara objektivave të biznesit: Qëllimet e prerjes së biskotave dhe fiksimi arbitrar mbi njërin nga parashikimet ose konkluzionet statistikore

Ju ndoshta keni dëgjuar për prioritizimin e metodave të Shkencës së të Dhënave përpara se të zgjidhni pyetjet e biznesit, po aq sa arsyet e dështimeve të projekteve të Data Science. Ky artikull do të fokusohet në një shembull të veçantë, por shumë të zakonshëm të kësaj.

Fatkeqësisht, në Shkencën e të Dhënave ekzistojnë shumë pritje të padiskutueshme, të institucionalizuara (nga industria) për disa metoda dhe qëllime, të cilat shpesh drejtohen nga këto metoda.

Mënjanë harengën e kuqe të famshme të mësimit të thellë për problemet e papërshtatshme, le të shohim së pari grupimin ose segmentimin. Shpesh, kur bëhet fjalë për ndonjë problem që lidhet me analitikën e klientit, segmentimi dhe grupimi i klientëve janë qëllimi dhe zgjidhja e paracaktuar, e prerësit të kukive.

1) Për hir të thjeshtësisë ilustruese, imagjinoni ta kondensoni hapësirën tuaj në 2D dhe të shihni që të dhënat tuaja ndjekin një funksion të shkallëzuar me një hap të ri për çdo rritje të njësisë në x ose duken si një pikturë e Jackson Pollock. Çfarë grupimi kuptimplotë mund të keni atje? Në rastin e funksionit të shkallëzuar, a nuk do të ishte më mirë ta bënim atë një problem parashikimi? Megjithatë, thirrja në gjunjë e grumbullimit ose segmentimit të klientëve kur bëhet fjalë për problemet e analitikës së klientit, si dhe interesi vizual për gjenerimin pothuajse gjithmonë do të çojë në një prioritet të grupimit mbi zgjidhjet e tjera potencialisht më të dobishme.

Gjithashtu, grupimi fillimisht ishte menduar për reklamat e llojit të transmetimit, si billbordet dhe TV, për të arritur audiencë të gjerë të përbërë nga tipare të ndërthurura, por shumë prej tyre duket se nuk janë përshtatur me reklamat moderne si mesazhet e personalizuara brenda aplikacionit dhe njoftimet shtytëse, për të cilat prirja e individëve Rezultatet e nxjerra nga parashikimet e të mësuarit të mbikëqyrur do të ishin më të përshtatshme për t'u fokusuar.

2) 'Interesi njerëzor' shpesh theksohet në kurriz të faktorëve të tjerë, ndoshta për shkak të rritjes së 'historisë'. Ne përqendrohemi në gjëra të tilla si demografia në vend të veprimeve të vogla shumë minutëshe, kështu dhe kështu (gjurma e ngjarjes së aplikacionit të klientit). Ngjarjet e spagetit nuk krijojnë portrete të bukura të karaktereve "të rrumbullakosura" siç bëjnë atributet kryesore të personazheve si gjinia, mosha, përkatësia etnike, etj.

3) Gjithashtu, nuk mund të vendosni një ikonë në këtë koleksion të copëzave në krahasim me tiparet demografike. Interesi vizual gjithashtu padyshim që ndonjëherë ka errësuar problemet reale në lojë. Ndoshta theksi i fortë në 'tregimin e një historie' është pjesërisht i nxitur nga nevoja për të plotësuar kuvertën e Powerpoint dhe nuk mund ta bëni këtë me diçka vizualisht jo bindëse si një skedar parashikimesh vertikale.csv afatgjatë.

Rezultatet e konkluzioneve statistikore të kompletuara me koeficientë dhe rëndësi statistikore shpesh mund të zëvendësojnë grupimin kur bëhet fjalë për gjenerimin e interesit vizual. Prandaj, megjithëse parashikimi mund të duket se është fokusi kryesor i Shkencës së të Dhënave në mediat sociale, kur bëhet fjalë për punët aktuale të DS, mund të futeni në funksionin tjetër, 'konkluzionet statistikore', ndërkohë që pothuajse gjithmonë përjashtoni ose hidhni një sy të kujdesshëm ndaj parashikimi, thjesht sepse parashikimi nuk 'tregon një histori'.

Ju duhet të bëni atë që duhet të bëni për të arritur interesin e palëve të interesuara? Në një botë ideale, ne duhet të synojmë të rishpërndajmë barrën e interesit të motivuar nga brenda në shkencën e të dhënave tek palët e interesuara. Reforma organizative, p.sh. duke rekrutuar palë të interesuara jo-teknike me atë tipar, mund ta nxisë këtë në afat të gjatë.

Olcay Cirit dhe ekipi i tij në Uber AI ishin në gjendje të ndërtonin një rrjet nervor që e tejkaloi XGBoost. "Mësoni më shumë duke parë këtë klip nga tryeza jonë e fundit e klientëve Comet."

Model Drift

Zhvendosja e modelit është një fenomen potencialisht i anashkaluar në projektet e Shkencës së të Dhënave. "Koncept drift" është komponenti kryesor në zhvendosjen e modelit që është shqetësues kur bëhet fjalë për prishjen e performancës së modelit.

Zhvendosja e konceptit ndodh kur marrëdhënia midis variablës së rezultatit dhe ndryshoreve të pavarura ndryshon. Për lehtësi ilustrimi, konsideroni se keni trajnuar një model për të zbuluar një marrëdhënie që y = a + 3x. Sidoqoftë, një muaj më vonë, në kohën e prodhimit, marrëdhënia tani është + 5x. Prandaj, parashikimet tuaja nuk do të jenë aq të sakta sa në stërvitje dhe rezultatet tuaja të mëparshme spektakolare nga trajnimi mund t'ju përgjojnë në një ndjenjë vetëkënaqësie përpara një rënieje nga hiri.

Rëndësitë e veçorive të bazuara në pemë që nuk interpretohen si ndërveprime me shumë veçori

Rëndësia e veçorive të bazuara në pemë (si RandomForest) mund të bazohet në rëndësinë e veçorisë së ndërrimit ose uljen mesatare të papastërtisë ose entropisë Gini, por megjithatë rëndësia e tipareve të bazuara në pemë është llogaritur, duket se rëndësia e veçorisë ka pak të bëjë me specifikimin e modelit. (në bazë të degëzimit).

Të gjitha variablat tuaja janë në të vërtetë variabla ndërveprimi, pasi, në momentin që ka një ndarje të pemës, do të keni një ndryshore ndërveprimi. Megjithatë, grafikët e rëndësisë së veçorive nga softueri juaj raportojnë nga jashtë rëndësinë e veçorive sikur për çdo variabël të pastër. Megjithatë, për të përsëritur, e gjithë baza e ndarjes së pemëve është se një variabël ndërvepron me një tjetër në mënyra specifike për të ndikuar në saktësinë tuaj parashikuese. Rëndësia konvencionale e veçorive të bazuara në pemë mund t'ju tregojë vetëm se sa e mirë është një funksion si "këngëtar në sfond" ose "lojtar ekipi".

Megjithatë, kompanitë shpesh ndërmarrin veprime për çdo veçori të izoluar bazuar në rëndësinë e veçorive të tij, duke besuar se prodhimi i 'rëndësisë së ndryshueshme' nga shkencëtarët e të dhënave i referohet kontributit individual të çdo variabli. Sigurisht, shumica e shkencëtarëve të të dhënave nuk duket se po e hedhin poshtë këtë keqkuptim, nëse në radhë të parë janë të vetëdijshëm për të. Nëse kompania vepron vetëm me një veçori në një kohë në vend që të trajtojë veçoritë në një pemë, të cilat të gjitha ndërveprojnë së bashku, si një kombinim i fuqishëm për të arritur çfarëdo ndryshimi që duan të shohin, ata me siguri do të jenë mjaft të zhgënjyer pasi një tipari mund të jetë një lojtar i mirë ekipor, por një interpretues i dobët individual (në raport me performancat individuale të veçorive të tjera individuale).

Nëse keni mundësi të tërhiqni vetëm një ose dy leva në të njëjtën kohë në vend të një marrëveshjeje pakete, do t'ju duhet të zbuloni se sa e mirë është çdo veçori si solist, dhe për këtë, një koeficient regresioni mund të jetë një zgjedhje më e mirë. Me pak fjalë, mund të merren parasysh disa teknika të paqarta për t'u përpjekur të ngacmojnë kontributet individuale si statistika H, ​​e cila është shumë e rëndë nga pikëpamja llogaritëse.

Gjithashtu, një kufizim i madh është se statistika H mund t'ju tregojë se sa të rëndësishme janë dy variabla kur janë së bashku dhe gjithashtu sa e rëndësishme është një variabël kur ndërvepron me të gjitha variablat e tjerë. Megjithatë, pemët janë shpesh më të thella se dy shtresa dhe jo të gjitha variablat përdoren në pemë, kështu që bëhet problematike të llogaritet rëndësia e ndërveprimeve n-drejtimore ku n›2. (I gjithë ky seksion është potencialisht pak i errët pa përfituar nga përpunimi i mëtejshëm teknik, dhe për këtë qëllim, shkrimi i mëparshëm i autorit mbi këtë temë ndahet këtu në këtë artikull.)



Përfundim

Disa nga këto arsye për dështimet e projekteve të Shkencës së të Dhënave janë padyshim pak ezoterike, dhe disa prej tyre, sinqerisht, janë materiale themelore që çdo shkencëtar i të dhënave duhet të dijë. Megjithatë, është ndoshta statusi "themelues" i regresionit logjistik që po kontribuon në krizën e reputacionit të tij në kulturën e gjërave të reja me shkëlqim që përcakton shkencën e të dhënave të sotme. Siç u përmend më parë, fiksimi i metodave mbi qëllimet është gjithashtu një çështje kryesore në Shkencën e të Dhënave, dhe ndoshta e kundërta e fiksimit, heqjes nga puna, e diçkaje në dukje "të thjeshtë" si regresioni logjistik, po kontribuon në mungesën e vëmendjes së duhur që i kushtohet. duke e kuptuar mirë.

Fiksimi i metodës mbi qëllimin e biznesit mund të lindë gjithashtu për shkak të kuptimit të pamjaftueshëm të shkencëtarëve të të dhënave dhe vëmendjes që i kushtohet njohurive të fushës. Për sa i përket shembullit të "Analitikës së klientit" të transmetimit kundrejt shënjestrimit të personalizuar, mbase shpesh nuk u shkon mendja Shkencëtarëve të të Dhënave të mendojnë se cilin nga këto dy qëllime duhet të ndjekin thjesht sepse nuk i kuptojnë vërtet pasojat e strategjive të ndryshme të marketingut.

Sidoqoftë, është përgjegjësi e shkencëtarëve të të dhënave që të kërkojnë të kuptojnë mirë domenin e tyre përmes kërkimit të tyre dhe një qëndrimi kërkues, bashkëpunues me ekipet e tjera që janë më në kontakt me biznesin kur bëhet fjalë për qëllimet, modelin e të ardhurave, modelin e fitimit, strategjitë aktuale të marketingut, gamën e strategjive të realizueshme të marketingut për t'u ndjekur, etj.

Projektet e Shkencës së të Dhënave ndoshta nuk dështojnë aq shpesh sa i bëjmë ne, siç trajtohet në pikën 1 të kësaj serie, por kur ndodhin, ka shumë gjëra që shkencëtarët e të dhënave ndoshta mund t'i kishin parandaluar. Shpresojmë që të gjithë të mësojmë nga gabimet tona, dhe akoma më mirë, të përpiqemi të mësojmë më shumë (për domenet tona, për shembull) përpara se të rrezikojmë gabimet e shmangshme.

Shënim i redaktorit: "Heartbeat" është një publikim në internet i drejtuar nga kontribuesit dhe komunitet i dedikuar për të ofruar burime arsimore kryesore për shkencën e të dhënave, mësimin e makinerive dhe praktikuesit e të mësuarit të thellë. Ne jemi të përkushtuar të mbështesim dhe frymëzojmë zhvillues dhe inxhinierë nga të gjitha sferat e jetës.

Editorialisht e pavarur, Heartbeat sponsorizohet dhe publikohet nga Comet, një platformë MLOps që u mundëson shkencëtarëve të të dhënave dhe ekipeve të ML të gjurmojnë, krahasojnë, shpjegojnë dhe optimizojnë eksperimentet e tyre. Ne paguajmë kontribuesit tanë dhe nuk shesim reklama.

Nëse dëshironi të kontribuoni, shkoni te thirja jonë për kontribues. Ju gjithashtu mund të regjistroheni për të marrë buletinin tonë javor ("Deep Learning Weekly"), shikoni "blogun e Comet", bashkohuni me ne në" ""Slack" dhe ndiqni Comet në "Twitter" dhe "LinkedIn" për burime, ngjarje , dhe shumë më tepër që do t'ju ndihmojnë të ndërtoni modele më të mira ML, më shpejt.