VQGAN+CLIP — Si funksionon?

Skena e imazheve sintetike (“GAN Art”) ka parë kohët e fundit një lloj shpërthimi produktiviteti: Një lloj i ri i arkitekturës së rrjetit nervor i aftë për të gjeneruar imazhe nga teksti u popullarizua shpejt përmes një fletoreje Google Colab të disponueshme falas. Ai u mundësoi mijëra njerëzve të krijonin imazhe mahnitëse / fantastike / magjike, vetëm duke futur një mesazh teksti. Twitter, Reddit dhe forume të tjera u vërshuan nga këto imazhe, të shoqëruara shpesh me hashtags #vqgan ose #clip

Paradigma tekst-për-imazh që popullarizoi VQGAN+CLIP sigurisht që hap mënyra të reja për të krijuar media sintetike dhe ndoshta edhe demokratizon "krijimtarinë", duke e zhvendosur grupin e aftësive nga ekzekutimi (grafik) ose udhëzimi algoritmik (programimi) në "inxhinieri të shpejtë" të shkëlqyer. .

Unë e shoh VQGAN+CLIP si një mjet tjetër të lezetshëm në kutinë e veglave "Creative AI". Është koha ta shikojmë këtë mjet nga një këndvështrim teknik dhe të shpjegojmë se si funksionon!

Çfarë është VQGAN+CLIP
Kush e beri VQGAN+CLIP
Si funksionon teknikisht
Çfarë është VQGAN
Çfarë është CLIP
Si funksionojnë VQGAN dhe CLIP së bashku
Po të dhënat e trajnimit?
Lexim të mëtejshëm dhe lidhje të mira

1. Çfarë është VQGAN+CLIP?

VQGAN+CLIP është një arkitekturë e rrjetit nervor që bazohet në arkitekturën revolucionare CLIP të publikuar nga OpenAI në janar 2021.

VQGAN+CLIP Është një model tekst-në-imazh që gjeneron imazhe me madhësi të ndryshueshme, duke pasur parasysh një grup kërkesash teksti (dhe disa parametra të tjerë).

Ka pasur modele të tjera tekst-në-imazh më parë (p.sh. AttentionGAN), por arkitektura VQGAN+CLIP e sjell atë në një nivel krejtësisht të ri:

“Cilësia e qartë, koherente dhe me rezolucion të lartë të imazheve që krijojnë këto mjete i dallon ato nga mjetet e artit të AI që kanë dalë më parë (...) Këto sisteme janë të parat që në fakt plotësojnë " premtimi i tekstit në imazh."("Zëvendës")

VQGAN+CLIP ka lançuar një valë të re veprash arti të krijuara nga AI, siç mund t'i ndiqni në Twitter nën hashtags #VQGAN dhe#CLIP, të kuruara nga llogaria në Twitter @images_ai

2. Kush e beri VQGAN+CLIP

Rreth prillit të vitit 2021, Katherine Crowson i njohur si @RiversHaveWings dhe Ryan Murdoch i njohur si @advadnoun filluan të bëjnë eksperimente duke kombinuar modelin me burim të hapur CLIP (nga OpenAI) dhe arkitektura të ndryshme GAN.

Katherine Crowson, artiste dhe matematikane shkroi Google Colab Notebook që kombinonte VQGAN + CLIP. Fletorja u nda një mijë herë. Fillimisht ishte në spanjisht dhe më vonë është përkthyer në anglisht. Më parë, Ryan Murdoch kombinoi BigGAN + CLIP, i cili ishte frymëzimi për fletoren e Crowson.

3. Si funksionon teknikisht?

VQGAN+CLIP është një kombinim i dy arkitekturave të rrjetit nervor: VQGAN dhe CLIP. Le t'i shqyrtojmë këto dy veç e veç përpara se t'i shikojmë në kombinim.

4. Çfarë është VQGAN?

një lloj arkitekture e rrjetit nervor
VQGAN = Vector Quantized Generative Adversarial Nwork
u propozua për herë të parë në punimin "Taming Transformers" nga Universiteti Heidelberg (2020)
ai kombinon rrjetet nervore konvolucionale (tradicionalisht të përdorura për imazhe) me transformatorët (tradicionalisht të përdorur për gjuhë)
është e shkëlqyeshme për imazhe me rezolucion të lartë

Megjithëse VQGAN përfshin Transformers, modelet nuk janë të trajnuar me tekst, por të dhëna të pastra të imazhit. Ata thjesht aplikojnë arkitekturën Transformer që është përdorur më parë për tekst në imazhe, që është një risi e rëndësishme.

5. Çfarë është CLIP?

një model i trajnuar për të përcaktuar se cili titull nga një grup titujsh përshtatet më mirë me një imazh të caktuar
CLIP = ContrastiveLgjuhë –Image Pri-trajnim
ai gjithashtu përdor Transformers
propozuar nga OpenAI në janar 2021
Punim: “Mësimi i modeleve vizuale të transferueshme nga mbikëqyrja e gjuhës natyrore”
Depoja e Git: https://github.com/openai/CLIP

Ndryshe nga VQGAN, CLIP nuk është një model gjenerues. CLIP është "thjesht" i trajnuar për të përfaqësuar shumë mirë tekstin dhe imazhet.

Gjëja revolucionare në lidhje me CLIP është se ai është i aftë për të mësuarit me goditje zero. Kjo do të thotë se performon jashtëzakonisht mirë në grupe të dhënash të papara më parë — Shpesh më mirë se modelet që janë trajnuar ekskluzivisht në një grup të dhënash të caktuar!

Fakt gazmor:

OpenAI publikoi DALLE (ju kujtohen karriget e avokados?) në të njëjtën kohë me CLIP. DALLE është një model tekst-në-imazh si VQGAN+CLIP. CLIP ishte plotësisht me burim të hapur, ndërsa DALLE jo.

"Pesat për DALL-E as nuk janë publikuar ende publikisht, kështu që ju mund ta shihni këtë punë CLIP si një përpjekje të një hakeri për të riprodhuar premtimin e DALL-E." ("Burimi" )

6. Si funksionojnë VQGAN dhe CLIP së bashku

Me një fjali: CLIP drejton VQGAN drejt një imazhi që përputhet më mirë me një tekst të caktuar.

Duke përdorur terminologjinë e prezantuar në fletoren e Katherine Crowson, CLIP është "Perceptuesi" dhe VQGAN është "Generatori".

“CLIP është një model që fillimisht ishte menduar për të bërë gjëra të tilla si kërkimi për përputhjen më të mirë me një përshkrim si “një qen që luan violinë” midis një numri imazhesh. Duke çiftuar një rrjet që mund të prodhojë imazhe (një lloj "gjenerator") me CLIP, është e mundur të rregulloni hyrjen e gjeneratorit në përpjekje për të përputhur një përshkrim." (@advanoun)

Ka kuptim të shikojmë përkatësisht hyrjet dhe daljet e të dy modeleve:

VQGAN: Si të gjithë GAN-et, VQGAN merr një vektor zhurme dhe nxjerr një imazh (realist).

CLIPnga ana tjetër merr:
- (a) një imazh dhe nxjerr veçoritë e imazhit; ose
- (b) një tekst dhe nxjerr veçoritë e tekstit.
Ngjashmëria ndërmjet imazhit dhe tekstit mund të përfaqësohet nga ngjashmëria e kosinusit të vektorëve të veçorive të mësuara.

Duke shfrytëzuar kapacitetet e CLIP-it si një "timon", ne mund të përdorim CLIP për të udhëhequr një kërkim nëpër hapësirën latente të VQGAN për të gjetur imazhe që përputhen shumë mirë me një kërkesë teksti sipas CLIP.

Shënimi anësor: Dallimi me GAN-et "normale":

Edhe pse të dy modelet VQGAN dhe CLIP janë të trajnuar paraprakisht kur i përdorni në VQGAN, ju në thelb e trajnoni atë (përsëri) për çdo kërkesë që i jepni. Kjo është e ndryshme nga GAN-et "normale" ku e stërvitni një herë (ose përdorni një model të trajnuar paraprakisht) dhe më pas thjesht bëni konkluzion për të gjeneruar një imazh.

7. Po të dhënat e trajnimit?

Në rastin e VQGAN+CLIP kemi të bëjmë me 2 modele: VQGAN është trajnuar në një bazë të dhënash kryesisht kanonike si ImageNet ose COCO (kjo varet nga modeli konkret që përdorni, sigurisht. VQGAN është vetëm arkitektura). CLIP nga ana tjetër u trajnua mbi një grup të dhënash të gjerë (dhe të panjohur) materialesh të rastësishme në internet. Që e bën atë kaq emocionues, por edhe pak të frikshëm dhe të paparashikueshëm.

8. Lexim të mëtejshëm dhe lidhje të mira

Origjinali "Fletorja e Google Colab" nga Katherine Crowson
"Fletorja e Google Colab" e përkthyer në anglisht
Video në Youtube që shpjegon gazetën CLIP: https://www.youtube.com/watch?v=T9XSU0pKX2E
Histori e bukur në thellësi nga Charlie Snell rreth modeleve gjeneruese të bazuara në CLIP: https://ml.berkeley.edu/blog/posts/clip-art/
"Zëvendësartikull "Skena e artit e krijuar nga AI shpërthen ndërsa hakerët krijojnë mjete të reja novatore" (7 korrik 2021)
Abc.net: Pikturat e Australisë: https://www.abc.net.au/news/science/2021-07-15/ai-art-tool-makes-paintings-of-australia/100288386
Tutorial në spanjisht nga Jakeukalane Milegum Firisse: https://tuscriaturas.miraheze.org/w/index.php?title=Ayuda:Generar_im%C3%A1genes_con_VQGAN%2BCLIP
Përkthimi anglisht i tutorialit: https://tuscriaturas.miraheze.org/w/index.php?title=Ayuda:Generar_im%C3%A1genes_con_VQGAN%2BCLIP/Anglisht
Artikull i bukur teknik që shpjegon BigSleep (BigGAN + CLIP): https://wandb.ai/gudgud96/big-sleep-test/reports/Image-Generation-Based-on-Abstract-Concepts-Using-CLIP-BigGAN--Vmlldzo1MjA2MTE

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Software Engineering Programming Languages Nodejs Algorithms Front End Development Java Data Computer Science Tech Development AWS HTML Angular CSS Neural Networks ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Learning