Si rrjetet nervore po prodhojnë imazhe mendore

Beau Perkins

06/17/2018

Në fund të viteve shtatëdhjetë, vala e parë e kërkimit shkencor mbi imazhet mendore shtroi disa pyetje të rëndësishme për mënyrën se si ne përpunojmë informacionin. Cilat janë “kufizimet tona”? Çfarë është thelbësore për të përcaktuar formën e një objekti? Çfarë lloj sistemi koordinativ është më i mirë për të përfaqësuar të dhënat hapësinore? Dhe brenda këtij sistemi, në çfarë duhet të përqendrohemi për të marrë rezultatin optimal me koston më të vogël?

Secila prej këtyre pyetjeve është pjesë e tablosë më të madhe: Si e përcaktojmë të tërën nga pjesët e saj? Duam të dimë se çfarë lloj magjie bën truri ynë për të ndërtuar një "episod të tërë nga fragmente", sepse nëse e modelojmë, mësojmë edhe më shumë rreth tij.

Pesë dekada më vonë…

Jo vetëm pak ditë më parë, Generative Query Network (GQN) doli në revistën Science. Ashtu si mendja përthith informacionin vizual dhe e lokalizon me shpejtësi brenda një konteksti më të madh, ashtu edhe GQN mëson rreth skenave përmes një grushti vëzhgimesh të rrethinës së tij. Jepini atij disa këndvështrime 2D në një skenë dhe në të vërtetë do të përshkruajë një mjedis të tërë 3D bazuar në përfundime.

Ndryshe nga përpjekjet e mëparshme për paraqitjen e skenës, mësimi i GQN nuk mbikëqyret ose nuk ka nevojë për grupe të dhënash të etiketuara ose rregulla të paraprogramuara ndriçimi. Ai gjeneron ndriçim, hije dhe perspektivë të gjitha më vete. Jo vetëm kaq, por mund t'i klasifikojë objektet me saktësi të jashtëzakonshme - shumë larg nga lloji i llogaritjes së imagjinuar në shekullin e 20-të.

GQN përbëhet nga dy rrjete të ndryshme nervore të lidhura nga fundi në fund. Rrjeti i parë formon një paraqitje të të dhënave me pozicionet e tyre relative ndërmjet njëra-tjetrës, ngjyrës, etj. Nëse përfaqësimi është i mirë, atëherë informacioni i kaluar në rrjetin e dytë, i mësuar nëpërmjet përhapjes së pasme, do të gjenerojë një skenë të mirë 3D nga një perspektivë arbitrare. .

Ky hulumtim është një pikë referimi në modelimin e formimit të imazheve mendore, megjithëse funksionon vetëm për skena sintetike. Megjithatë, do të ishte gabim të thuash se është i pari i këtij lloji. Tre vjet më parë, Google ndërmori një detyrë shumë më të ndërlikuar të quajtur DeepStereo.

Pas në kohë, nga sintetike në reale

I trajnuar nga panorama të marra nga një automjet në lëvizje, DeepStereo parashikon dhe gjeneron perspektiva të reja nga "imazhet e botës reale, natyrore". Për një problem kaq të ndërlikuar, ishte një projekt i parakohshëm. Ata kuptuan se, meqenëse "rrjetet e konvolucionit" duke përdorur "Stochastic Gradient VB" ishin në gjendje të prodhonin poza të ndryshme fytyrash, duke pasur parasysh imazhet fillestare në mënyrë të pranueshme, ata ndoshta mund të bënin të njëjtën gjë për skenat gjigante.

Megjithëse rezultati është magjepsës dhe mbresëlënës, nuk është aq i sinqertë sa mund të ishte. Aty ku nuk mund të llogaritet pasiguria për shkak të mungesës së detajeve, DeepStereo zgjedh të turbullojë imazhin. Për më tepër, është e lehtë të shikosh grafikat kërcyese të videos herë pas here. Por ajo që është e rëndësishme është se tregoi se ne mundemi përfundimisht, me shumë kërkime dhe duke rritur kapacitetin e harduerit, të krijojmë një sistem për paraqitjen e skenës me saktësinë e GQN dhe shtrirjen e DeepStereo.