Bëjini statistikat, AI dhe ML më transparente duke ndarë atë që mund të jepni dhe inputet që ju nevojiten

Shkenca e të dhënave është e vështirë. Ne investojmë shumë kohë dhe fokusohemi në zhvillimin e aftësive tona për të arsyetuar përmes modeleve dhe për të zbatuar intuitat e fituara me vështirësi në praktikë. Interpretoni dhe përmblidhni mjaft modele të regresionit logjistik, dhe ne fillojmë të harrojmë punën e vështirë që u desh për të kuptuar se çfarë është një marrëdhënie lineare log-shans.

Dhe kjo është një metodë relativisht e thjeshtë. Imagjinoni aktorët tanë të varfër kur themi gjëra të tilla si, “Epo, modeli i parë nuk bëri supozime mbi strukturën - ai e trajtoi grupin e të dhënave si krejtësisht të sheshtë. Nëse e ndryshonim modelin gjenerues për të supozuar anëtarësimin e përzier në një grup grupesh, mund të përmirësojmë performancën, veçanërisht në fillimet e ftohta.

🥺

"Shoku, çfarë?" Mendova kur e dëgjova këtë në një takim. Dhe unë isha ai që e thashë.

Në fund të fundit, ne shkencëtarët e të dhënave jemi të autorizuar për të nxitur vlerën nëpërmjet modeleve vetëm nëse kuptojmë mekanizmat praktikë, në organizatat tona, me anë të të cilave mund të ofrojmë vlerë. Kjo kërkon domosdoshmërisht mësim të ndërsjellë mes nesh dhe homologëve tanë. Si mund të përdoret modeli juaj? Nëse mund t'i parashikoni më mirë konvertimet ose shmangien, si mund ta përdorin punën tuaj ekipet që punojnë në këto probleme?

Nuk ka përgjigje të lehta në rrugën drejt bashkëpunimeve produktive dhe marrëdhënieve me besim të lartë. Por këtu ne do të zhvillojmë një shkurtore, konceptin e një menuje opsionesh, për t'i bërë komunikimet tona të palëve të interesuara më të buta dhe më transparente. Ne do të përqendrohemi në përcaktimin e njësive të ofrimit, formularëve tanë të përsëritshëm të projektit dhe kostove të tyre shoqëruese për organizatën. Kjo do t'i ndihmojë të gjithë të marrin vendime të informuara për shkëmbim.

Nëse jeni një kontribues ose drejtues i shkencës së të dhënave që kërkon të shpejtojë dhe të qetësojë fillimin dhe ekzekutimin e projektit, lexoni më tej.

Menytë përfshijnë artikujt në ofertë

Menytë përshkruajnë saktësisht se çfarë merr një klient. Në rastin tonë, ne duam të përshkruajmë në mënyrë paraprake shtrirjen e rezultateve të mundshme të shkencës së të dhënave për një ekip ose individ. Kjo mund të jetë dyfish sfiduese për shumë modele. Një, ne shpesh priremi t'i qasemi çdo problemi sikur të ishte një fletë bosh. Përafrimi i problemeve të freskëta është një kënaqësi e madhe e punës dhe të menduarit përmes formave që marrin projektet tona mund t'i bëjë ata të ndihen të prerë dhe të zhurmshëm. Së dyti, është një sfidë serioze të harrosh zhargonin që na ndihmon të komunikojmë brenda disiplinës sonë dhe përshkrimet e zanatit që rezonojnë jashtë saj. Megjithatë, këto sfida mund të jenë mundësi argëtuese për të përshëndetur homologët tuaj me shembuj të prekshëm që ata mund të prekin.

Merrni parasysh këta shembuj, në kontekstin e imagjinuar të një udhëzuesi që keni shkruar për homologët tuaj jo-praktikues të ML:

  • GLM: Kjo klasë modelesh na lejon të modelojmë marrëdhënie midis variablave të ndryshëm, duke kontrolluar për të tjerët dhe të ofrojmë interpretime të drejtpërdrejta. Për shembull, thoni se jeni të interesuar për shpenzimet individuale të klientëve dhe shikoni që klientët tanë me fitime të larta shpenzojnë më shumë për produktet tona, siç bëjnë klientët tanë më të vjetër. Por shumë nga klientët tanë me fitime të larta janë të avancuar në karrierën e tyre dhe më të lartë në moshë. Pas kontrollit për tjetrin, çfarë ndikon në shpenzime? Këto modele mund t'u përgjigjen këtyre lloj pyetjeve.
  • Rrjetet neurale të kutisë së zezë: Këto janë zakonisht të vështira, shpesh praktikisht të pamundura për t'u interpretuar. Por ata janë në gjendje të mësojnë marrëdhënie më të ndërlikuara dhe shpesh bëjnë parashikime më të mira se modelet më të thjeshta. Nëse kemi një mënyrë për t'i përdorur me përfitim parashikimet e sakta, këto mund të jenë një zgjedhje e mençur.

"Por," ju dëgjoj të shqetësoheni, "ka shumë më tepër që ne dimë të bëjmë! A do të jetë ndonjëherë gjithëpërfshirëse? A do të na bëjë kjo vrimë pëllumbash?”

Shqetësime të drejta, dhe për të parën, jo: Në praktikë ndoshta nuk do të krijoni kurrë një katalog gjithëpërfshirës të gjithçkaje që ju dhe ekipi juaj mund të bëni. As një menu nuk është një listë gjithëpërfshirëse e të gjitha artikujve që një kuzhinier mund të gatuajë. Kjo mund të jetë një gjë shumë e mirë, me kusht që të jeni të qartë për klientët tuaj të brendshëm se kjo nuk është të gjitha që bëni, por një shembull i gjërave në të cilat jeni praktikuar mirë. Dhe, nëse si rekomandime për rastet e përdorimit të zakonshëm. Duke u njohur më shumë me atë që keni bërë, në përgjithësi do t'u jepni miqve tuaj në funksione të tjera më shumë ide se çfarë mund të bëni. "Këtu është një problem me të cilin jemi përballur," fillojnë shumë biseda të këndshme dhe produktive, "Unë hodha një sy në faqen "Rreth meje" të ekipit tuaj dhe nuk pashë asgjë të ngjashme, por a është kjo gjëja që mund të ndihmoni me?”

Për të dytën, nuk e kam parë që kjo të çojë në gropë pëllumbash në praktikë. Projektet tipike DS përfshijnë një thirrje për hapat e ardhshëm ose punën e ardhshme. Është më tipike që, për shembull, modeli i parë i regresionit logjistik që ofroni për një partner do të çojë në ndjekjen e kërkesave që kërkojnë metoda të ndryshme, më të sofistikuara. Ju madje mund t'i renditni opsionet tuaja, nëse doni të jeni të zbukuruar.

Menutë përfshijnë kostot përkatëse

Nëse krijimi i përshkrimeve transparente dhe të arritshme të punës sonë nuk ishte mjaft sfiduese, përshkrimi i kostos së saj mund të sjellë dhimbje. Ne i shtrijmë kufijtë e metaforës sonë këtu: Aty ku menutë tipike me të cilat jemi njohur të gjithë ofrojnë çmime të drejtpërdrejta, kostoja e plotë e punës së shkencës së të dhënave është një përzierje e përpunuar e përpjekjeve si nga shkenca e të dhënave ashtu edhe nga ekipet partnere. Këtu qëllimi ynë është t'u japim homologëve një ide të qartë se çfarë marrin njësitë tona të punës. Kjo është thelbësore pasi si ne shkencëtarët e të dhënave ashtu edhe partnerët tanë marrim vendime për atë që ata kërkojnë nga ne dhe si e kalojnë kohën e tyre.

Le të kthehemi te dy shembujt tanë të mëparshëm:

  • Pasi të kemi (1) zhvilluar fushëveprimin, në formën e variablave të varur dhe të pavarur, ne kemi vendosur se do të donim të kuptonim (2) ndërtuam një tubacion të dhënash, një GLM i merr një anëtari të ekipit tonë afërsisht 1-2 javë përpjekje të fokusuara për të kthyer modelin tonë të parë të kalimit. Ky dorëzues përfshin një raport (slide deck) mbi të cilin variablat tregojnë efekte të rëndësishme dhe cilat prej tyre janë thelbësore.
  • Rrjetet nervore standarde mund të jenë të thjeshta ose komplekse në varësi të kompleksitetit të problemit. Në raste të thjeshta klasifikimi, duke supozuar një shtrirje të zhvilluar dhe një tubacion ekzistues të të dhënave, një shkencëtar i të dhënave mund të rrotullojë një rrjet nervor standard në 2 deri në 4 javë të fokusuara. Ky dorëzues përfshin një përshkrim të metodave të provuara dhe një raport të performancës së modelit.

Vini re referencat e përsëritura për përpjekjet të fokusuara. Ky është një dallim i rëndësishëm që kërkon stres: Mesazhi juaj duhet të jetë i qartë se këto vlerësime nuk supozojnë prioritete konkurruese. Kjo mund të nxisë biseda rreth asaj që duhet të punojë ekipi juaj. Mbajini ato biseda të hapura dhe transparente, dhe kjo është një gjë shumë pozitive. Vini re gjithashtu se rezultatet nuk premtojnë një nivel të veçantë të performancës.

"Por prisni," mund të pyesni veten, "a nuk e keni anashkaluar sa kohë duhet për të shtrirë një projekt dhe për të ndërtuar një tubacion?" Kjo është një mënyrë për ta thënë atë, por unë do t'ju inkurajoja ta kuadritni këtë rritje të transparencës në atë që shkakton pasiguri në kohën tuaj të kthimit. Rendisni, në masën më të plotë që mundeni, të panjohurat që shkaktojnë ndryshime. Është e natyrshme dhe e drejtë që miqtë tanë të biznesit të pyesin se sa kohë kërkon shtrirja. Kjo është më e vështirë për t'u përgjigjur, pasi është domosdoshmërisht bashkëpunuese. Edhe nëse ata kanë një kërkesë shumë të qartë që i përshtatet plotësisht ekipit tuaj DS, qëllimi i komunikimit dhe i dokumentimit kërkon kohë. Po kështu, ndërtimi i një modeli kur ekziston një bazë e të dhënave ekzistuese, e pastruar - le të themi që përdoret për raportet mujore të KPI - është zakonisht shumë më e lehtë dhe më e shpejtë. (Përjashtimet ndodhin kur një rast përdorimi i modelimit nuk mund të jetojë me ndonjë supozim të bërë për qëllimin e raportimit.) Përsëri, kjo tenton të nxisë më shumë komunikim të ndërvarësive të ndërsjella, në vetvete një gjë shumë e mirë.

Përsëri, qëllimi këtu nuk është të bëjmë vlerësime të kalibruara në mënyrë të përsosur të kohës së kthimit. Është të ndani sfidat dhe mundësitë tuaja, në mënyrë që ju dhe palët tuaja të interesit të ndihmoni njëri-tjetrin për të hequr sfidat dhe për të krijuar mundësi më të reja, më të mëdha. Nëse është e dobishme, përdorni sferat ose madhësitë e bluzave për të transmetuar pasigurinë dhe blini vetes një dhomë lëvizëse.

Menytë janë publikuar

Së fundi, një e thjeshtë: menyja juaj duhet të jetë lehtësisht e aksesueshme. Publikoni atë duke përdorur çdo mjet të zgjedhur për menaxhimin e njohurive të organizatës suaj. Faqet e Github, një sajt në google, një lidhje në kanalin tuaj Slack, çfarëdo që e bën atë. Nuk ka nevojë t'i ndërlikojmë gjërat këtu, thjesht duhet të jetë i arritshëm dhe në mënyrë ideale bashkëpunuese. (Është shumë më e lehtë të bësh pyetje në linjë sesa të shkruash një email.)

Duke filluar

Siç e kam parashtruar më lart, kjo qasje ka disa sfida dhe zhvillimi i menusë suaj mund të shkaktojë pak shqetësim. Në një farë kuptimi, ju jeni duke u përkushtuar për kohët e kthimit. Nëse ju ose ekipi juaj bini në grackën e ngatërrimit të kësaj me një SLA të formës, "Ne kthejmë çdo model brenda dy javësh", ju mund ta gjeni shpejt veten tepër premtues dhe të stresuar. Është thelbësore që çdo angazhim i nënkuptuar të mbahet i realizueshëm dhe i qartë.

Këtu janë disa hapa që mund të ndërmerrni për të zhvilluar një draft të parë:

  1. Filloni duke grumbulluar një listë të projekteve që keni përfunduar së fundmi.
  2. Për çdo projekt, mendoni mirë dhe shënoni sa kohë u desh për të bërë hapat tipikë të identifikimit të të dhënave, pastrimit të tyre, transformimit të tyre dhe më në fund trajnimit të modeleve dhe matjes së performancës.
  3. Për çdo projekt, qëllimi ose përshkrimi i ngushtë i pjesës së punës që është nën kontrollin e ekipit tuaj. Më pas, përshkruani në mënyrë transparente inputet e kërkuara. Është e rëndësishme të mbani hapësirën minimale. Shumica prej nesh, modelistët, me kënaqësi do të ndërhynin me një problem interesant modelimi deri në vdekjen nga nxehtësia e universit. Vendosja e një kapak në dorëzimin tuaj të parë në një mënyrë shumë të dobishme për të mbajtur të përsosurën nga të qenit armik i së mirës.
  4. Mendoni se sa mirë shkoi çdo hap dhe nëse ndonjë pengesë që ndodhi ka të ngjarë të përsëritet. A u vonuan shumë kohët tuaja të kthimit? Një aksident i lumtur sepse gjithçka shkoi në mënyrë perfekte?
  5. Për secilin artikull, duke përdorur informacionin që keni mbledhur në hapin e mëparshëm, zgjidhni kohën më të vogël që do të ndiheni rehat duke thënë se do të duhej për të përfunduar një projekt tjetër të së njëjtës formë dhe përdorni atë si fundin e ulët të një diapazoni. Nëse po e bëni këtë për një ekip, kini kujdes të merrni parasysh ndryshimet në familjaritetin e anëtarëve të ndryshëm. Paragjykoni veten drejt sasisë më të madhe të kohës.

Përfundimi me një shembull minimal pune

Për të përfunduar, ne do të mbledhim të gjithë menunë e shembullit më poshtë. Imagjinoni këtë në formën e një faqe interneti, brenda rrjetit privat të organizatës suaj, për audiencën që është klientët tuaj të brendshëm të mundshëm.

Shpresoj që ta gjeni këtë metodë po aq të dobishme sa unë. Cilat metoda të tjera dhe mashtrime komunikimi i keni gjetur të dobishme në bashkëpunimin në projektet e shkencës së të dhënave?

Ekipi i RaDSkills mezi pret të punojë me ju! Ne jemi një ekip i DS që mburremi me aftësi në një sërë disiplinash teknike, këtu kemi mbledhur një mostër të llojit të projekteve që kemi përfunduar, së bashku me skicat e kërkesave të tyre për të dhëna dhe kohët e vështira të kthimit. Këto nuk janë të vetmet gjëra që mund të bëjmë dhe ne i inkurajojmë njerëzit që të kontaktojnë me pyetje. Shpresojmë që kjo menu të sjellë ide se çfarë mund të punojmë së bashku!

GLM: Kjo klasë modelesh na lejon të modelojmë marrëdhënie midis variablave të ndryshëm, duke kontrolluar për të tjerët dhe të ofrojmë interpretime të drejtpërdrejta. Për shembull, thoni se jeni të interesuar për shpenzimet individuale të klientëve dhe shikoni që klientët tanë me fitime të larta shpenzojnë më shumë, siç bëjnë klientët tanë më të vjetër. Por shumë nga klientët tanë me fitime të larta janë të avancuar në karrierën e tyre dhe më të lartë në moshë. Pas kontrollit për tjetrin, çfarë ndikon në shpenzime? Këto modele mund t'u përgjigjen këtyre lloj pyetjeve.

Pasi të kemi (1) të zhvilluar fushëveprimin, në formën e variablave të varur dhe të pavarur, ne kemi vendosur se do të donim të kuptonim (2) ndërtuam një tubacion të dhënash, një GLM i merr një anëtari të ekipit tonë afërsisht 1-2 javë e përpjekjeve të përqendruara për të kthyer modelin tonë të kalimit të parë. Ky dorëzues përfshin një raport (kuvertë me rrëshqitje) mbi të cilin variablat tregojnë efekte të rëndësishme dhe cilat prej tyre janë thelbësore.

Rrjetet neurale të kutisë së zezë: Këto janë zakonisht të vështira, shpesh praktikisht të pamundura për t'u interpretuar. Por ata janë në gjendje të mësojnë marrëdhënie më të ndërlikuara dhe shpesh bëjnë parashikime më të mira se modelet më të thjeshta. Nëse kemi një mënyrë për t'i përdorur me përfitim parashikimet e sakta, këto mund të jenë një zgjedhje e mençur.

Rrjetet nervore standarde mund të jenë të thjeshta ose komplekse në varësi të kompleksitetit të problemit. Në raste të thjeshta klasifikimi, duke supozuar një shtrirje të zhvilluar dhe një tubacion ekzistues të të dhënave, një shkencëtar i të dhënave mund të rrotullojë një rrjet nervor standard në 2 deri në 4 javë të fokusuara. Ky dorëzues përfshin një përshkrim të metodave të provuara dhe një raport të performancës së modelit.

Kjo nuk është gjithçka që mund të bëjmë dhe nëse keni ide që nuk janë të përfaqësuara këtu, ju lutemi kontaktoni!

Botuar fillimisht në https://easter.ai më 5 janar 2022.