Skena e imazheve sintetike (“GAN Art”) ka parë kohët e fundit një lloj shpërthimi produktiviteti: Një lloj i ri i arkitekturës së rrjetit nervor i aftë për të gjeneruar imazhe nga teksti u popullarizua shpejt përmes një fletoreje Google Colab të disponueshme falas. Ai u mundësoi mijëra njerëzve të krijonin imazhe mahnitëse / fantastike / magjike, vetëm duke futur një mesazh teksti. Twitter, Reddit dhe forume të tjera u vërshuan nga këto imazhe, të shoqëruara shpesh me hashtags #vqgan ose #clip

Paradigma tekst-për-imazh që popullarizoi VQGAN+CLIP sigurisht që hap mënyra të reja për të krijuar media sintetike dhe ndoshta edhe demokratizon "krijimtarinë", duke e zhvendosur grupin e aftësive nga ekzekutimi (grafik) ose udhëzimi algoritmik (programimi) në "inxhinieri të shpejtë" të shkëlqyer. .

Unë e shoh VQGAN+CLIP si një mjet tjetër të lezetshëm në kutinë e veglave "Creative AI". Është koha ta shikojmë këtë mjet nga një këndvështrim teknik dhe të shpjegojmë se si funksionon!

  1. Çfarë është VQGAN+CLIP
  2. Kush e beri VQGAN+CLIP
  3. Si funksionon teknikisht
  4. Çfarë është VQGAN
  5. Çfarë është CLIP
  6. Si funksionojnë VQGAN dhe CLIP së bashku
  7. Po të dhënat e trajnimit?
  8. Lexim të mëtejshëm dhe lidhje të mira

1. Çfarë është VQGAN+CLIP?

VQGAN+CLIP është një arkitekturë e rrjetit nervor që bazohet në arkitekturën revolucionare CLIP të publikuar nga OpenAI në janar 2021.

VQGAN+CLIP Është një model tekst-në-imazh që gjeneron imazhe me madhësi të ndryshueshme, duke pasur parasysh një grup kërkesash teksti (dhe disa parametra të tjerë).

Ka pasur modele të tjera tekst-në-imazh më parë (p.sh. AttentionGAN), por arkitektura VQGAN+CLIP e sjell atë në një nivel krejtësisht të ri:

“Cilësia e qartë, koherente dhe me rezolucion të lartë të imazheve që krijojnë këto mjete i dallon ato nga mjetet e artit të AI që kanë dalë më parë (...) Këto sisteme janë të parat që në fakt plotësojnë " premtimi i tekstit në imazh."("Zëvendës")

VQGAN+CLIP ka lançuar një valë të re veprash arti të krijuara nga AI, siç mund t'i ndiqni në Twitter nën hashtags #VQGAN dhe#CLIP, të kuruara nga llogaria në Twitter @images_ai

2. Kush e beri VQGAN+CLIP

Rreth prillit të vitit 2021, Katherine Crowson i njohur si @RiversHaveWings dhe Ryan Murdoch i njohur si @advadnoun filluan të bëjnë eksperimente duke kombinuar modelin me burim të hapur CLIP (nga OpenAI) dhe arkitektura të ndryshme GAN.

Katherine Crowson, artiste dhe matematikane shkroi Google Colab Notebook që kombinonte VQGAN + CLIP. Fletorja u nda një mijë herë. Fillimisht ishte në spanjisht dhe më vonë është përkthyer në anglisht. Më parë, Ryan Murdoch kombinoi BigGAN + CLIP, i cili ishte frymëzimi për fletoren e Crowson.

3. Si funksionon teknikisht?

VQGAN+CLIP është një kombinim i dy arkitekturave të rrjetit nervor: VQGAN dhe CLIP. Le t'i shqyrtojmë këto dy veç e veç përpara se t'i shikojmë në kombinim.

4. Çfarë është VQGAN?

  • një lloj arkitekture e rrjetit nervor
  • VQGAN = Vector Quantized Generative Adversarial Nwork
  • u propozua për herë të parë në punimin "Taming Transformers" nga Universiteti Heidelberg (2020)
  • ai kombinon rrjetet nervore konvolucionale (tradicionalisht të përdorura për imazhe) me transformatorët (tradicionalisht të përdorur për gjuhë)
  • është e shkëlqyeshme për imazhe me rezolucion të lartë

Megjithëse VQGAN përfshin Transformers, modelet nuk janë të trajnuar me tekst, por të dhëna të pastra të imazhit. Ata thjesht aplikojnë arkitekturën Transformer që është përdorur më parë për tekst në imazhe, që është një risi e rëndësishme.

5. Çfarë është CLIP?

  • një model i trajnuar për të përcaktuar se cili titull nga një grup titujsh përshtatet më mirë me një imazh të caktuar
  • CLIP = ContrastiveLgjuhë –Image Pri-trajnim
  • ai gjithashtu përdor Transformers
  • propozuar nga OpenAI në janar 2021
  • Punim: “Mësimi i modeleve vizuale të transferueshme nga mbikëqyrja e gjuhës natyrore”
  • Depoja e Git: https://github.com/openai/CLIP

Ndryshe nga VQGAN, CLIP nuk është një model gjenerues. CLIP është "thjesht" i trajnuar për të përfaqësuar shumë mirë tekstin dhe imazhet.

Gjëja revolucionare në lidhje me CLIP është se ai është i aftë për të mësuarit me goditje zero. Kjo do të thotë se performon jashtëzakonisht mirë në grupe të dhënash të papara më parë — Shpesh më mirë se modelet që janë trajnuar ekskluzivisht në një grup të dhënash të caktuar!

Fakt gazmor:

OpenAI publikoi DALLE (ju kujtohen karriget e avokados?) në të njëjtën kohë me CLIP. DALLE është një model tekst-në-imazh si VQGAN+CLIP. CLIP ishte plotësisht me burim të hapur, ndërsa DALLE jo.

"Pesat për DALL-E as nuk janë publikuar ende publikisht, kështu që ju mund ta shihni këtë punë CLIP si një përpjekje të një hakeri për të riprodhuar premtimin e DALL-E." ("Burimi" )

6. Si funksionojnë VQGAN dhe CLIP së bashku

Me një fjali: CLIP drejton VQGAN drejt një imazhi që përputhet më mirë me një tekst të caktuar.

Duke përdorur terminologjinë e prezantuar në fletoren e Katherine Crowson, CLIP është "Perceptuesi" dhe VQGAN është "Generatori".

“CLIP është një model që fillimisht ishte menduar për të bërë gjëra të tilla si kërkimi për përputhjen më të mirë me një përshkrim si “një qen që luan violinë” midis një numri imazhesh. Duke çiftuar një rrjet që mund të prodhojë imazhe (një lloj "gjenerator") me CLIP, është e mundur të rregulloni hyrjen e gjeneratorit në përpjekje për të përputhur një përshkrim." (@advanoun)

Ka kuptim të shikojmë përkatësisht hyrjet dhe daljet e të dy modeleve:

VQGAN: Si të gjithë GAN-et, VQGAN merr një vektor zhurme dhe nxjerr një imazh (realist).

CLIPnga ana tjetër merr:
- (a) një imazh dhe nxjerr veçoritë e imazhit; ose
- (b) një tekst dhe nxjerr veçoritë e tekstit.
Ngjashmëria ndërmjet imazhit dhe tekstit mund të përfaqësohet nga ngjashmëria e kosinusit të vektorëve të veçorive të mësuara.

Duke shfrytëzuar kapacitetet e CLIP-it si një "timon", ne mund të përdorim CLIP për të udhëhequr një kërkim nëpër hapësirën latente të VQGAN për të gjetur imazhe që përputhen shumë mirë me një kërkesë teksti sipas CLIP.

Shënimi anësor: Dallimi me GAN-et "normale":

Edhe pse të dy modelet VQGAN dhe CLIP janë të trajnuar paraprakisht kur i përdorni në VQGAN, ju në thelb e trajnoni atë (përsëri) për çdo kërkesë që i jepni. Kjo është e ndryshme nga GAN-et "normale" ku e stërvitni një herë (ose përdorni një model të trajnuar paraprakisht) dhe më pas thjesht bëni konkluzion për të gjeneruar një imazh.

7. Po të dhënat e trajnimit?

Në rastin e VQGAN+CLIP kemi të bëjmë me 2 modele: VQGAN është trajnuar në një bazë të dhënash kryesisht kanonike si ImageNet ose COCO (kjo varet nga modeli konkret që përdorni, sigurisht. VQGAN është vetëm arkitektura). CLIP nga ana tjetër u trajnua mbi një grup të dhënash të gjerë (dhe të panjohur) materialesh të rastësishme në internet. Që e bën atë kaq emocionues, por edhe pak të frikshëm dhe të paparashikueshëm.

8. Lexim të mëtejshëm dhe lidhje të mira