Vlerat e tij, projektet e tij dhe si ndikon në biznes

Eksploroni mundësitë e punës: https://labs.mirakl.jobs/

Mirakl ofron platformën e parë dhe më të avancuar të tregut të ndërmarrjeve SaaS në industri. Me Mirakl, organizatat në të gjithë industritë B2B dhe B2C mund të lançojnë tregje më shpejt, të rriten më të mëdha dhe të operojnë me besim pasi tejkalojnë pritjet në rritje të klientëve. Platformat janë avantazhi i ri konkurrues në tregtinë elektronike dhe markat më të besuara në botë zgjedhin Mirakl për zgjidhjen e tij gjithëpërfshirëse të teknologjisë, ekspertizës dhe ekosistemin Mirakl Connect për të zhbllokuar fuqinë e modelit të biznesit të platformës për ta.

Si rezultat, kompani si ABB, Astore by AccorHotels, Best Buy Canada, Carrefour, Catch, Changi Airport, Darty, The Kroger Co., Leroy Merlin, Maisons du Monde, Metro dhe Toyota Material Handling fitojnë shpejtësinë, shkallën dhe shkathtësia për të fituar në ndryshimin e peizazhit të tregtisë elektronike.

Ky postim në blog synon të prezantojë ekipin e shkencës së të dhënave dhe punën e tij në Mirakl.

Ne do t'ju tregojmë se kush jemi, çfarë vlerësojmë si ekip, çfarë projektesh zhvillojmë për të përmirësuar biznesin, si e menaxhojmë bashkëpunimin me anëtarët e tjerë teknikë dhe cilat mjete dhe teknika përdorim në në baza ditore.

Nëse jeni një shkencëtar i të dhënave, një inxhinier i fortë i mësimit të makinerive, një specialist i MLOPs, ose nëse thjesht jeni të interesuar të mësoni më shumë rreth një ekipi të shkencës së të dhënave që operon brenda një kompanie të shkallëzuar, duhet ta kontrolloni patjetër këtë postim.

Pa shumë kohë, le të zhytemi 🚀.

👉 Takoni Miradoge: ekipin e shkencës së të dhënave

Ekipi i shkencës së të dhënave, i quajtur gjithashtu nga brenda Miradoge, u lançua rreth 3 vjet më parë, pra 7 vjet pasi Mirakl u bashkëthemelua në 2012.

Qëllimi i këtij ekipi, me pak fjalë, është të shfrytëzojë sasinë e madhe të të dhënave që prodhohen vazhdimisht në platformën Mirakl dhe t'i transformojë ato për të përmirësuar produktin dhe operacionet ekzistuese (por më shumë për këtë më vonë).

Për të marrë një pamje të plotë të asaj që është ekipi i Miradoge, le ta prezantojmë atë përmes dimensioneve të mëposhtme.

👉 Kush jemi dhe çfarë vlerësojmë

Në këtë moment të shkrimit, ekipi përbëhet nga 12 persona: gjashtë shkencëtarë të të dhënave, katër inxhinierë të të dhënave, një shkencëtar kryesor i të dhënave dhe një drejtues i të dhënave.

Ne të gjithë vijmë nga botë të ndryshme: konsultimi, akademia, shërbimet financiare, tregtia elektronike dhe industria, dhe kemi prejardhje në inxhinieri softuerike, matematikë dhe shkenca aktuariale.

Për më tepër, ekipi është mjaft ndërkombëtar ( 🇫🇷 🇮🇹 🇯🇵 🇰🇷 🇹🇳 ) dhe mishëron një shpirt punë e palodhur, lojë e fortë që përkthehet në një atmosferë pune emocionuese.

👉 Çfarë bëjmë dhe çfarë i sjellim biznesit

Ne punojmë në raste të ndryshme përdorimi që drejtohen kryesisht nga biznesi dhe kanë për qëllim të zgjidhin pikat praktike të dhimbjes operacionale.

Përpara se të japim detaje për secilin projekt, le të sqarojmë fillimisht se çfarë është në të vërtetë një treg dhe çfarë sjell Mirakl si një kompani softuerësh.

Tregjet e ndërmarrjeve janë tregje online të operuara nga organizata tradicionale që ftojnë shitësit e palëve të treta t'i shesin drejtpërdrejt klientëve fundorë. Kjo kontribuon në angazhimin e përmirësuar për blerësit dhe shitësit, efikasitet më të mirë në proceset e blerjes/shitjes dhe zinxhirit të furnizimit, dhe rezultate më të mira financiare për organizatën, me burime të reja dhe të rritura të të ardhurave.

Brenda një ekosistemi kaq kompleks, ekipi i shkencës së të dhënave fokusohet në tre qëllimet e mëposhtme:

  1. Përmirësimi i efikasitetit operacional të shitësve dhe tregjeve duke automatizuar detyra të shumta të lodhshme dhe që kërkojnë kohë (shembuj projektesh në këtë fushë: heqja e dyfishimit të produktit, hartëzimi i katalogut, kategorizimi i produkteve)
  2. Përmirësimi i vlerës bruto të mallrave të tregjeve (GMV) (p.sh. ofrimi i rekomandimeve të produktit dhe parashikimet e shitjeve)
  3. Sigurimi i mjeteve të duhura për të monitoruar cilësinë dhe sigurinë e tregut(p.sh. zbulimi i shitësve anormalë, analizimi i ndërveprimeve midis klientëve dhe shitësve)

👉 Një përmbledhje e projekteve të shkencës së të dhënave

Tani le t'ju tregojmë pak më shumë rreth projekteve tona:

Kategorizimi i produkteve🗃️

Ndërsa miliona produkte të reja mund të krijohen në tregjet tona nga shitësit në baza mujore,zgjedhja e kategorisë së duhur të produktit midis mijëra zgjedhjeve është një detyrë sfiduese për ta. Kështu, gjatë këtij hapi mund të bëhen shumë gabime, duke ndikuar në dukshmërinë e produktit dhe përvojën e klientit.
Për të trajtuar këtë problem, ne trajnuam një model kategorizimi të mësimit të thellë duke përdorur përshkrimet e tekstit dhe imazhet për të lejuar operatorin të analizojë dhe pastrojë deri te produktet e keqklasifikuara.
Ky model është vendosur në prodhim në disa klientë dhe funksionon në kohë reale gjatë ngarkimit të katalogut të shitësve

Hartëzimi automatik i katalogut 🎯

Qëllimi i këtij projekti është të përshpejtojë procesin manual që çdo shitës i nënshtrohet për të integruar katalogun e tij dhe për ta përafruar atë me taksonominë e operatorit. Çdo shitës ka një mënyrë unike për të përshkruar produktet e tij dhe kjo mund të ndryshojë shumë nga ajo e operatorit.
Duke përdorur teknikat e përpunimit të gjuhës natyrore, algoritmi i hartës automatike është krijuar për të zgjidhur këtë problem duke harmonizuar të dhënat. Një përfitim tjetër që ofron ky algoritëm është bërja e produkteve të shitësve lehtësisht të kërkueshme dhe të zbulueshme në platformë.

Zbulimi i anomalive të shitësit🕵️‍♀️

Për të siguruar një cilësi të mirë në treg, operatorët e tregut duhet të monitorojnë aktivitetin e shitësve të tyre për t'u siguruar që nuk ka asnjë problem me sjelljen e tyre (dorëzimi i vonuar sistematik, përpjekje për mashtrim, çështje pa stoqe, etj.). Ne zhvilluam një algoritëm zbulimi të anomalive bazuar në mësimin e makinerive për të na lejuar të zbulojmë automatikisht këto lloj situatash kritike që ndikojnë në cilësinë e një tregu. Ky algoritëm monitoron matjet e shitësve si numri i ofertave, numri i porosive ose shkalla e dërgesës me vonesë, dhe dërgon sinjalizime te operatorët e tregut kur këto konsiderohen jonormale.

Deduplikimi i produktit👕 👕

Në një mjedis tregu, ofrues të shumtë do të shesin të njëjtat produkte: secili do të ngarkojë Fletën e të Dhënave të Produktit të tij (a.k.a PDS) në katalogun e përbashkët. Për t'i bashkuar ato në një të vetme, hapi i parë është të identifikoni ato dublikatë. Për ta bërë këtë, ne ndërtuam një tubacion të përbërë nga një algoritëm i mësimit të makinerive që frenon spektrin e krahasimit dhe një model të personalizuar të mësimit të thellë multimodal që prodhon krahasime të hollësishme. Metoda jonë shkon në katalogë që përmbajnë miliona fletë, duke arritur saktësi 90% në bashkimet e propozuara.

→ Për t'i bërë këto projekte të jenë të gjalla dhe të shkallëzuara në prodhim, ne kemi projektuar gjithashtu një API konkluzionesh të personalizuara që krijon pika përfundimtare që ekipet e produktit integrojnë dhe konsumojnë.

→ Ndërsa disa projekte janë vendosur plotësisht në prodhim dhe përdoren nga shitësit dhe operatorët në baza ditore, disa të tjerë nuk e kanë arritur ende atë hap (por ata janë në rrugën e tyre, së shpejti) sepse kjo kërkon zhvillim shtesë për t'u integruar në të tjera ekipet (projektuesit e fundit, frontend dhe UX) dhe të përafruar me udhërrëfyesit e tyre përkatës. Ndërtimi i softuerit është një përpjekje kolektive që mund të marrë pak kohë.

🗄️ Si punojmë dhe organizohemi

Gjithkush në ekip ka pronësinë e plotë të projektit të tij: ai duhet ta zhvillojë atë, ta testojë, ta testojë stresin dhe ta përgatisë për vendosje dhe industrializim. Në këtë kuptim, ne kombinojmë role të shumta njëherësh: shkencëtar i të dhënave, inxhinier i të dhënave, pronar produkti dhe analist i cilësisë.

Një herë në javë, ekipi mblidhet për një takim javor, ku secili jep një status përditësimi për projektin e tij dhe çdo dy javë, ne organizojmë sesione idesh për të diskutuar tema teknike

🧰 Çfarë përdorim në kutinë tonë të veglave

Ne kombinojmë shumë mjete. Këtu është një përmbledhje e asaj që ne përdorim zakonisht.

Bibliotekat e shkencës së të dhënave

Ne përdorim burim të hapur. Ne përdorim Python gjerësisht në çdo fazë të tubacionit të shkencës së të dhënave. Le ta zbërthejmë atë:

  • Përanalizën e të dhënave eksploruese,ne përdorim: panda, profilizimi i pandave, Dask, Matplotlib, Plotly, Streamlit, Dash
  • PërModelim: scikit Learn, TensorFlow, PyTorch, Transformers, Sentence-Transformers, CLIP, Facebook Profet
  • PërGjurmimin dhe regjistrin e modelit: MLflow
  • PërPërpunimin dhe përfundimin e të dhënave: PySpark (po, ju do të bëni disa punë Spark)

Një aspekt që gëzon ekipi i shkencës së të dhënave është testimi i vazhdueshëm i paketave të reja dhe krahasimi i qasjeve dhe teknikave të ndryshme.

Orkestrimi dhe tubacionet

Është një gjë që kodi juaj funksionon saktë në laptopin tuaj. Është një histori krejt tjetër kur e vendos. Në fakt, në një mjedis prodhimi, kodi juaj duhet të integrohet në një tubacion që është planifikuar të funksionojë në mënyrë periodike, për të reaguar ndaj dështimeve të mundshme, për të rrotulluar makinat virtuale që ekzekutojnë kodin tuaj dhe e shkallëzojnë atë dhe për të shfaqur njoftime për përdoruesit.
Për të trajtuar tubacionet, ne përdorim Airflow si orkestruesin tonë kryesor për të nisur punë në renë kompjuterike.

Teknologjitë e uebit për shërbimin e modeleve

Për të ndërtuar API-të e konkluzioneve, ne kemi provuar korniza të shumta ueb si Cortex dhe FastAPI. Disa nga algoritmet tona mbështesin thirrjet asinkrone, ndërsa të tjerët duhet të ekzekutohen në kohë reale. Kjo është arsyeja pse na duhej të hetojmë kornizat moderne që mbështesin këto veçori.

Re

Ne përdorim ofrues të ndryshëm cloud për qëllime të shumëfishta: ruajtje, sigurim grupesh gjatë ndërtimit të tubacioneve, llogaritje pa server, trajnim modelesh dhe llogaritje për qëllime të përgjithshme.

DevOps

Ne përdorim Docker për të paketuar algoritmet tona në imazhe të riprodhueshme dhe të riekzekutueshme. Pastaj, ne përdorim Kubernetes për t'i vendosur ato.

Versionimi i kodit

Ne të gjithë shtyjmë kodin në Github dhe përdorim CI-CD (Veprimet Github) të tij për të automatizuar detyra të tilla si testimi i njësisë, lëshimet dhe vendosja e paketave.

🏢 Ja pse duhet të na bashkoheni

Pikat e lartpërmendura flasin vetë dhe duhet t'ju japin një pasqyrë gjithëpërfshirëse se si funksionon ekipi i shkencës së të dhënave.

Duke e lënë mënjanë këtë, do të dëshironim gjithashtu të theksonim aspektet e mëposhtme që duhet t'ju bëjnë të mendoni edhe më shumë për një karrierë në Mirakl.

  • Ne kryejmë dhe zbatojmë projekte me ndikim që mbulojnë qindra klientë, mijëra dyqane dhe miliona klientë: nëse jeni duke kërkuar për një ndikim në shkallë të gjerë, do të shërbeheni.
  • Ne mendojmë për shkallëzueshmërinë që nga dita e parë dhe ne i dizajnojmë modelet tona në përputhje me rrethanat. Këtu mësoni të jeni pragmatik: jo duke u hedhur drejtpërdrejt në modelin më të fundit SOTA, por më tepër të mendoni me zgjuarsi për fitimet e shpejta që ju çojnë shpejt në prodhim.
  • Ne mbulojmë shumë tema sfiduese si ndërtimi i ngulitjeve të fuqishme multimodale të produkteve, trajnimi i modeleve shumëgjuhëshe për klasifikimin e tekstit dhe kategorizimin e produkteve, krijimi i një tubacioni të plotë CI CD për ciklin e jetës ML, etj.
  • Ne jemi të pajisur me mjete të nivelit të lartë për të qenë produktiv
  • Ne mbështetemi në një platformë moderne të dhënash që vepron si një burim i vetëm i së vërtetës dhe kombinon burimet e ndryshme të të dhënave që përdoren në projekte. Kjo e bën më të lehtë për çdo shkencëtar të dhënash qasjen në të dhënat pa u mbështetur në DevOps ose inxhinierë të të dhënave.
  • Ne i kushtojmë kohë mësimit të qasjeve dhe teknikave të reja
  • Kjo është e vetëkuptueshme, por le ta themi gjithsesi: ka një atmosferë miqësore dhe të shkëlqyer për të mësuar dhe për t'u rritur.
  • Nga hapi i fushëveprimit deri në fazën e vendosjes, projektet tona ndiqen nga afër nga inxhinierët e softuerit, pronarët e produkteve, projektuesit, zhvilluesit e nivelit të parë dhe suksesi i klientit: nuk jeni kurrë vetëm. Projekti juaj ka rëndësi për të gjithë.
  • Çdo shkencëtar i të dhënave nuk bën vetëm modelim. Këtu është kënaqësia: ai (ose ajo) do të duhet të merret me prodhimin e modelit të tij, të krijojë DAG, të ekzekutojë testet e njësive, etj. Nëse ju pëlqen softueri, do t'ju duket emocionuese të punoni në Mirakl.

Nëse e gjithë kjo ju flet, dhe ne shpresojmë se do, ju mund të kontrolloni pozicionet për të cilat po punësojmë këtu.

konkluzioni

Kjo ishte një hyrje e shkurtër për ekipin e shkencës së të dhënave dhe punën e tij në Mirakl.

Për të mësuar më shumë rreth nesh, ju inkurajojmë të vazhdoni të vizitoni blogun tonë dhe ta vendosni atë në shiritin tuaj të faqeshënuesve.

Mos ngurroni ta ndani këtë postim edhe me miqtë, kolegët dhe këdo që është i dashuruar me mësimin e makinerive dhe shkencën e të dhënave.

Ka më shumë për të ardhur: në postimet e ardhshme, ne do të shkojmë më teknikë. Ne do të zhytemi në rastet e ndryshme të përdorimit që trajtojmë, do të theksojmë disa mësime kryesore që mbledhim gjatë rrugës, do t'ju tregojmë se si i qasemi disa problemeve komplekse të shkencës së të dhënave; dhe ne do të ndajmë me ju një sërë këshillash dhe trukesh në prodhimin e mësimit të makinerive.

Qëndroni të sintonizuar!

Nëse jeni interesant të bashkoheni me ekipin, aplikoni tani: https://labs.mirakl.jobs/