Kohët e fundit, podkasti TWiML&AI "i referohet" "Rregullave të Mësimit të Makinerisë" të Google (pdf).

Është një lexim i lehtë, praktik i mbushur me mësime për këdo që kërkon të nxjerrë në prodhim modelet e mësimit të makinerive. M'u desh vetëm një orë për ta lexuar. Nëse jeni një inxhinier, zhvillues ose shkencëtar i të dhënave të mësimit të makinerive, ju sugjeroj ta "lexoni" - kjo përmbledhje e përgjithshme nuk e bën atë të drejtë.

Përmbledhja ime për një audiencë biznesi/fillestare

Bërja e AI më e lehtë dhe më e rëndësishme për një audiencë biznesi është një nga qëllimet tona në Prolego. Për këtë qëllim unë nxjerr 5 njohuri kryesore për fillestarët e mësimit të makinerive, drejtuesit e teknologjisë ose menaxherët e produkteve përmes sa vijon:

  • Unë zëvendësova zhargonin si "heuristik" me terma të njohur si "rregulli i biznesit".
  • Unë supozoj se ju punoni në një mjedis tradicional biznesi (p.sh., një bankë) dhe jo një kompani e drejtuar nga inxhinieria si Google. Për shembull, unë po supozoj se lidershipi nuk do të investojë në infrastrukturën e të dhënave derisa të provojë rezultatet e para.

5 njohuri fillestare nga Rregullat e Google të Mësimit të Makinerisë

Nëse është e mundur, thjesht programoni një rregull të thjeshtë biznesi. Përdorni mësimin e makinerive nëse rregullat e biznesit tuaj bëhen shumë komplekse.

Mësimi i makinerisë është i dobishëm për ndërtimin e modeleve që shprehin në mënyrë të përmbledhur rregulla komplekse biznesi. Ju nuk keni nevojë (ose dëshironi) të përdorni mësimin e makinerive për situata të thjeshta.

Për shembull, nëse postimet "popullore" të blogut gjenerojnë gjithashtu rezultate në shitje, mos filloni duke përdorur mësimin e makinerive për të parashikuar "postimet më të mira të blogut që gjenerojnë shitje". Thjesht tërhiqni në mënyrë dinamike ato me pamjet më të fundit të faqeve dhe kodoni ato në logjikën e aplikacionit tuaj të internetit.

(Po, "Unë e mësova këtë mësim" në mënyrën e vështirë)

Por ndonjëherë "shumica e shikimeve" është një përfaqësues i dobët për "përmbajtje interesante për klientët tanë të ardhshëm". Në vend që të hartoni shumë rregulla biznesi, merrni parasysh ndërtimin e një modeli të mësimit të makinës.

Filloni me një model të thjeshtë dhe një objektiv të vetëm, të matshëm.

Fillojme me …

  • më pak të dhëna.
  • të dhënat që keni mbledhur tashmë.
  • modele të thjeshta si regresionet lineare.
  • objektiva të matshëm.

SDR-të tuaja duan të dinë se "cila drejtim ka më shumë gjasa për të blerë një kontratë vjetore", por një objektiv i tillë është jashtëzakonisht i vështirë për t'u matur, aq më pak modelimi dhe ndërtimi.

Në vend të kësaj, parashikoni se cili plumb ka të ngjarë të blejë ndonjë gjë. Ndërtoni një logjikë tjetër në krye të saj, si p.sh. renditja e klientëve me "mundësi për të blerë" sipas madhësisë së kompanisë. Me një model kaq të thjeshtë, mund të mos keni nevojë për ndonjë mbështetje nga shkencëtarët e të dhënave.

Kjo mund të duket e qartë sepse ekipet tuaja të inxhinierisë dhe produktit tashmë punojnë në këtë mënyrë.

Megjithatë, bërja e modeleve fillestare tepër komplekse është një gabim i zakonshëm sepse shkencëtarët e të dhënave optimizojnë për rezultate - jo inxhinieri dhe thjeshtësi produkti.

Inkurajoni bashkëpunimin e ngushtë midis inxhinierisë, shkencës së të dhënave dhe ekipeve të produktit gjatë dizajnimit të modelit.

Përfshini shkencëtarët e të dhënave në takimet tuaja të produktit. Ndihmojini ata të kuptojnë sfidat inxhinierike të botës reale. Filloni të diskutoni për kufizimet praktike të vendosjes së modeleve tuaja të para.

Keni nevojë për të dhëna të fundit? A mund të përdorni 6 javët e fundit apo rezultatet duhet të llogariten në kohë reale?

Sa vonesë lejohet? A mundet inxhinieria të përpunojë veçoritë në sfond duke përdorur Javascript ndërsa përdoruesi pret?

Merrni modelin në prodhim sapo të japë rezultate të pranueshme. Pastaj vazhdoni ta përmirësoni.

Ashtu si çdo produkt … lëshojeni dhe përsëritni. Mos vazhdoni të ndryshoni modelin. Merrni atë në prodhim dhe provoni rezultatet reale.

Do të shmangni shumë nga problemet në rregullat e Google nëse detyroheni të përballeni menjëherë me sfidat e inxhinierisë dhe të dhënave.

Investoni në tubacionin tuaj të të dhënave - nëse mundeni

Shumica e rregullave të Google kanë të bëjnë me investimet në infrastrukturën e përpunimit të të dhënave. Sigurohuni që të dhënat tuaja të trajnimit të mos rrjedhin në të dhënat tuaja të testit. Sigurohuni që të keni mbulim të mirë të testimit për tubacionet tuaja të të dhënave dhe të njoftoheni kur diçka ndryshon.

Shumë nga këto janë thjesht praktika të mira inxhinierike të të dhënave. Por kjo nuk do të thotë që shumica e ekipeve mund të punojnë me to sepse…

Fatkeqësisht, ju nuk punoni në Google – dhe mund të detyroheni nga menaxhmenti të pranoni borxhin teknik në vend që të investoni në një infrastrukturë të fuqishme të dhënash.

Shumë rregulla mund të mos zbatohen për të mësuarit e thellë

Rregullat fokusohen në modelet "tradicionale" të mësimit të makinerive dhe shkencës së të dhënave. Për shembull, një kapitull i tërë i kushtohet inxhinierisë së veçorive - një temë më pak e rëndësishme me modelet e të mësuarit të thellë që kërkojnë më pak inxhinieri tipare.

Mund të jetë me kosto më efektive për të hedhur më shumë GPU dhe të dhëna në një rrjet nervor sesa investimi në inxhinierinë komplekse të veçorive dhe zhvillimin e tubacioneve të të dhënave.