Çfarë ndodh kur u japim LLM-ve akses në mijëra modele të të mësuarit të thellë?

Kohët e fundit, ne kemi qenë dëshmitarë të një rritjeje të popullaritetit të modeleve të themelimit brenda kërkimit të të mësuarit të thellë. Modelet e mëdha të gjuhëve të trajnuara paraprakisht (LLM) kanë çuar në një paradigmë të re, në të cilën një model i vetëm mund të përdoret - me sukses të habitshëm - për të zgjidhur shumë probleme të ndryshme. Pavarësisht nga popullariteti i LLM-ve të përgjithshme, megjithatë, rregullimi i modeleve në një mënyrë specifike për detyrën tenton të tejkalojë qasjet që përdorin modelet e themelit. E thënë thjesht, modelet e specializuara janë ende shumë të vështira për t'u mposhtur! Duke u thënë këtë, ne mund të fillojmë të pyesim veten nëse fuqitë e modeleve të themelimit dhe modeleve të specializuara të të mësuarit të thellë mund të kombinohen. Brenda kësaj pasqyre, ne do të studiojmë kërkimet e fundit që integrojnë LLM-të me modele të tjera të specializuara të të mësuarit të thellë duke mësuar të thërrasin API-të e tyre të lidhura. Korniza që rezulton përdor modelin e gjuhës si një kontrollues të centralizuar që formon një plan për zgjidhjen e një detyrash komplekse, të lidhura me AI dhe delegon pjesë të specializuara të procesit të zgjidhjes tek modelet më të përshtatshme.

“Duke ofruar vetëm përshkrimet e modeleve, HuggingGPT mund të integrojë vazhdimisht dhe me lehtësi modele të ndryshme ekspertësh nga komunitetet e AI, pa ndryshuar asnjë strukturë ose cilësime të menjëhershme. Kjo mënyrë e hapur dhe e vazhdueshme na sjell një hap më afër realizimit të inteligjencës së përgjithshme artificiale.”— nga [2]

Sfondi

Përpara se të eksplorojmë se si modelet e gjuhës mund të integrohen me modele të tjera të të mësuarit të thellë, ne duhet të mbulojmë disa ide të sfondit, të tilla si mjetet LLM, rikthimi i informacionit dhe vetë-udhëzimi [11]. Për më shumë informacione të përgjithshme mbi modelet gjuhësore, shikoni burimet e mëposhtme.

  • Bazat e modelimit të gjuhës (GPT dhe GPT-2) [link]
  • Rëndësia e shkallës për modelet gjuhësore (GPT-3) [link]
  • LLM moderne [link] dhe të specializuara [link]
  • Inxhinieri e shpejtë [link] dhe e avancuar [link]

Përdorimi i mjeteve me…