Kompanitë si eBay dhe Amazon ruajnë miliona imazhe të produkteve; çdo imazh përmban një mori informacionesh që mund të përdoren për të ndihmuar konsumatorët të gjejnë produktin e duhur ose të reklamojnë produkte të ngjashme. Me aksesin dhe efektivitetin e modeleve të vizionit kompjuterik, përkatësisht rrjeteve nervore konvolucionale, vëllimi i lartë i informacionit që përmbahet në imazhe është tani shumë i arritshëm. Në ODSC West në 2018, Robinson Piramuthu i Ebay prezantoi teknikat kryesore për të lundruar sfidat në revolucionarizimin e tregtisë vizuale me modelet e vizionit kompjuterik.

[Artikulli i ngjashëm: Kombinimi i miliona produkteve në një treg duke përdorur vizionin kompjuterik dhe NLP]

Robinson Piramuthu diskutoi tre mënyra për përdorimin e të mësuarit të thellë për të inovuar tregtinë vizuale, duke përfshirë parashikimin e aspektit, parashikimin e kategorisë së gjetheve dhe identifikimin e nënshkrimit për renditjen vizuale. Çdo qasje përdor një rrjet të përbashkët nervor, por shtresa përfundimtare është projektuar për secilën nga detyrat specifike.

Qasje e Përgjithshme

Qasja e modelimit për të bërë parashikime të imazheve të dhëna të produkteve kërkon trajnim mbi imazhet e etiketuara. Robinson rekomandoi trajnimin e modelit të të mësuarit të thellë në imazhe me një sfond të thjeshtë në fazat fillestare për të lejuar modelin të mësojë nga shembuj të thjeshtë. Përveç kësaj, ai theksoi dobinë e imazheve me një shumëllojshmëri këndesh që ofrojnë një paraqitje më të pasur të veçorive në foto. Për më tepër, është thelbësore të mostrohen imazhe nga një shumëllojshmëri markash, shitësish, kushtesh dhe llojesh për të mundësuar që modeli të përgjithësohet mirë me imazhet në natyrë.

Kërkimi vizual

Në tregtinë vizuale, është e dobishme të jesh në gjendje t'i rekomandosh një konsumatori produkte që janë të ngjashme me ato të blera më parë. Për këtë qëllim, është e nevojshme të grupohen produkte të ngjashme së bashku me një masë ngjashmërie. Në vend të teknikave të pastra të të mësuarit të pambikëqyrur si PCA ose K-Means Clustering, Robinson Piramuthu rekomandon përdorimin e një qasjeje gjysmë të mbikëqyrur. Kjo përfshin trajnimin e një rrjeti nervor në një grup të caktuar klasash (Ebay përdor 16,000 klasa), më pas futjen e imazheve të paetiketuara në rrjet. Së fundi, duhet të zgjidhni klasat me të cilat imazhi i synuar është më i ngjashëm. Kriteret për zgjedhjen e klasave të ngjashme zakonisht bazohen në vlerat e aktivizimit softmax, duke treguar probabilitetet e parashikuara nga modeli për secilën klasë. Ekipi i Robinson përcaktoi se vendosja e një pragu për probabilitetet kumulative arriti performancë optimale në lidhje me pragjet bazuar thjesht në probabilitetin softmax. Në shembullin e mëposhtëm, me një prag kumulativ prej 0.9, kategoritë C1-C3 do të identifikoheshin si të ngjashme me imazhin e synuar.

Parashikimi i aspektit

Shpesh atributet kryesore mungojnë në përshkrimin e një artikulli dhe duhet një mënyrë për të plotësuar me shpejtësi karakteristikat që mungojnë. Duke ri-inxhinieruar shtresën përfundimtare plotësisht të lidhur për një rrjet nervor konvolucionist, mund të veçohen produktet sipas modelit, markës ose modës, të paraqitur më poshtë.

Atributet duhet të identifikohen përpara kohe që korrespondojnë me karakteristikat kyçe për përzgjedhjen e klientit dhe mund të identifikohen përmes imazheve. Për shembull, marka mund të identifikohet me të mësuarit e thellë, por diçka si madhësia nuk mundet. Specifikimi më i madh në lidhje me përshkrimet e produkteve mund të lejojë më pas ndërfaqen e internetit të dikujt të kërkojë produkte me saktësi më të madhe.

Saktonizimi i imët përsëritës

Robinson përmendi një teknikë intriguese për rregullimin e mirë të procesit të trajnimit për rrjetet nervore që përfshin ndryshimin e shkallës së të mësuarit përmes një procesi trajnimi përsëritës. Së pari, treni një rrjet me shpejtësinë fillestare të të mësuarit prej 0.01 derisa modeli të konvergojë (d.m.th., rrafshnaltat e saktësisë së vlefshmërisë). Vija gri e ndërprerë në fund të figurës më poshtë përfaqëson përsëritjen e parë të trajnimit. I njëjti model më pas rikualifikohet me një shkallë më të lartë të të mësuarit, e cila fillimisht shkakton një ulje të saktësisë, por do të konvergojë me një shkallë më të lartë saktësie se modeli i mëparshëm. Ky proces përsëritet derisa rritja e shkallës së të mësuarit të mos sjellë më përmirësim.

[Artikulli i ngjashëm: 4 hapa për të filluar mësimin e makinerisë me vizionin kompjuterik]

Foljet kryesore:

  • Një rrjet nervor i përbashkët mund të përdoret për të adresuar sfida të shumta në tregtinë vizuale duke inxhinieruar shtresën e fundit për detyrën specifike.
  • Mësimi gjysmë i mbikëqyrur ofron një mjet efektiv për të kërkuar vizualisht artikuj të ngjashëm për reklamim.
  • Dizajni i kampionimit është kritik për ndërtimin e modeleve efektive; kampionimi duhet të përfshijë një larmi të barabartë karakteristikash për një klasë të caktuar.
  • Inovacionet në trajnimin e modeleve të tilla si rregullimi i përsëritur i shkallës së të mësuarit mund të ofrojnë përfitime të konsiderueshme në performancën e modelit.

Postimi origjinal këtu.

Lexo më shumë artikuj të shkencës së të dhënave në OpenDataScience.com, duke përfshirë mësime dhe udhëzues nga nivelet fillestare në ato të avancuara! "Abonohuni në buletinin tonë javor këtu" dhe merrni lajmet më të fundit çdo të enjte.