Në peizazhin gjithnjë në zhvillim të inteligjencës artificiale gjeneruese, është shfaqur një lojtar i ri, i gatshëm të lërë gjurmën e tij dhe të ripërcaktojë kufijtë e asaj që është e mundur. Sot, jam i emocionuar të ndaj me ju rreth TII's Falcon 180B, një arritje novator në botën e modeleve të hapura të AI.

Falcon 180B nuk është vetëm një tjetër moment historik; është një hap gjigant përpara. Me 180 miliardë parametra mahnitës, ai qëndron si modeli më i madh gjuhësor i disponueshëm deri më sot. Aftësitë e tij janë përmirësuar përmes trajnimit të gjerë në një kolosal prej 3.5 trilionë argumentesh duke përdorur të dhënat e fundit të TII-së RefinedWeb. Ky trajnim përfaqëson një epokë të shkallës së paprecedentë, duke vendosur standarde të reja për atë që mund të arrijnë modelet e hapura të AI.

Ndërsa nisim këtë udhëtim për të eksploruar Falcon 180B, do të zbuloni se si ai shkëlqen në një spektër të detyrave të gjuhës natyrore, duke marrë vendin e parë në tabelat drejtuese për modelet e para-trajnuara me akses të hapur. Madje shkon kokë më kokë me modelet e pronarit si PaLM-2, duke shënuar një ndryshim paradigme në atë që është e mundur me modelet e mëdha të gjuhëve të aksesueshme publikisht.

Gjatë gjithë këtij eksplorimi, ne do të gërmojmë në arkitekturën e Falcon 180B, procesin e tij të gjerë të trajnimit dhe aplikimet e tij në botën reale. Përkuluni ndërsa bëjmë një zhytje të thellë në atë që e bën Falcon 180B një ndryshim të lojës në fushën e AI gjeneruese.

Tabela e përmbajtjes:

  1. Zbulimi i Falcon-180B
  2. Performanca përtej masës
  3. Si të përdorni fuqinë e Falcon-180B

Falcon-180B🦅

Falcon 180B është shtesa më e fundit në familjen e modeleve Falcon të TII, që përfaqëson një përparim të rëndësishëm në AI gjeneruese.

Karakteristikat kryesore:

  • Është një version i përshkallëzuar i Falcon 40B, që mburret me inovacione si vëmendja në shumë pyetje për shkallëzueshmëri të zgjeruar.
  • I trajnuar me 3.5 trilion argumente masive, duke përdorur deri në 4096 GPU dhe afërsisht 7,000,000 orë GPU.
  • Është 2.5 herë më i madh se Llama 2 dhe përfiton nga katër herë më shumë burime llogaritëse.
  • Të dhënat e trajnimit përbëhen kryesisht nga përmbajtje në internet (~85%) dhe një përzierje e kuruar e bisedave, dokumenteve teknike dhe kodit (~3%).
  • I rregulluar mirë për shkathtësi në grupet e të dhënave të bisedave dhe udhëzimeve nga burime të ndryshme bisedore.

Përdorimi komercial: Përdorimi komercial i Falcon 180B lejohet, por me kufizime strikte, duke përjashtuar "përdorimin e pritjes". Është thelbësore të rishikoni kushtet e licencimit dhe të kërkoni këshilla ligjore nëse mendoni për vendosjen komerciale.

Falcon 180B është gati të japë një kontribut të rëndësishëm në AI gjeneruese, duke vendosur standarde të reja në kuptimin dhe gjenerimin e gjuhës natyrore.

Performanca përtej masës🚀

Falcon 180B shkëlqen si modeli kryesor i Gjuhës së Madhe (LLM) i disponueshëm sot. Ai ka demonstruar performancë të jashtëzakonshme, duke tejkaluar konkurrentët si Llama 2 70B dhe GPT-3.5 e OpenAI në standardet MMLU. Për më tepër, ai qëndron krah për krah me PaLM 2-Large të Google në një sërë detyrash sfiduese, duke përfshirë HellaSwag, LAMBADA, WebQuestions, Winogrande, PIQA, ARC, BoolQ, CB, COPA, RTE, WiC, WSC dhe ReCoRD.

Shkathtësia e Falcon 180B është e dukshme pasi ai vazhdimisht arrin rezultate diku midis GPT 3.5 dhe GPT-4 në standarde të ndryshme vlerësimi. Potenciali për rregullim të mëtejshëm nga komuniteti është një perspektivë emocionuese tani që Falcon 180B është hapur në dispozicion.

Rezultati i tij mbresëlënës i tabelës së liderëve prej 68.74 në Tabelën e Liderëve Hugging Face forcon pozicionin e Falcon 180B si LLM-ja e para-trajnuar e lëshuar hapur me performancë më të mirë, duke tejkaluar LLaMA 2 të Metës, e cila shënoi 67.35.

Modelet e kuantizuara Falcon ruajnë metrika të ngjashme në të gjithë standardet. Rezultatet ishin të ngjashme kur u vlerësuan torch.float16, 8bit dhe 4bit. Shihni rezultatet në "Open Leaderboard LLM".

Si të hyni në fuqinë e Falcon-180B🔥

Falcon 180B është i disponueshëm në ekosistemin Hugging Face, duke filluar me versionin 4.33 të Transformers.

Demo

Mund ta provoni lehtësisht Falcon-180B në këtë hapësirë.

Kërkesat e harduerit

Kërkesat e harduerit për Falcon 180B janë të pamohueshme:

Këto specifikime janë mbresëlënëse, por mund të paraqesin sfida për ata që nuk kanë akses në burimet kompjuterike të nivelit të lartë. Një konsideratë e kujdesshme e këtyre kërkesave është thelbësore kur planifikoni të përdorni Falcon 180B.

Formati i kërkesës

Modeli bazë nuk ka format të shpejtë. Mos harroni se nuk është një model bashkëbisedues ose i trajnuar me udhëzime, prandaj mos prisni që ai të gjenerojë përgjigje bisedore – modeli i paratrajnuar është një platformë e shkëlqyeshme për rregullim të mëtejshëm, por ndoshta nuk duhet ta përdorni në mënyrë të rreptë jashtë kutisë. Modeli Chat ka një strukturë shumë të thjeshtë bisede.

Transformatorët🤖

Me lëshimin e Transformers 4.33, ju mund të përdorni Falcon 180B dhe të përdorni të gjitha mjetet në ekosistemin HF, të tilla si:

  • skriptet dhe shembujt e trajnimit dhe konkluzioneve
  • format i sigurt i skedarit (siguruesit)
  • integrime me mjete të tilla si bitsandbytes (kuantizimi 4-bit), PEFT (rregullimi i saktë i parametrave) dhe GPTQ
  • gjenerimi i asistuar (i njohur gjithashtu si "dekodim spekulativ")
  • Mbështetje për shkallëzimin e RoPE për gjatësi më të mëdha të kontekstit
  • parametrat e gjenerimit të pasur dhe të fuqishëm

Përdorimi i modelit kërkon që ju të pranoni licencën dhe kushtet e përdorimit të tij. Ju lutemi, sigurohuni që jeni identifikuar në llogarinë tuaj Hugging Face dhe sigurohuni që keni versionin më të fundit të transformers:

pip install --upgrade transformers
huggingface-cli login

bfloat16

Kjo është mënyra se si do të përdorni modelin bazë në bfloat16. Falcon 180B është një model i madh, prandaj ju lutemi merrni parasysh kërkesat e harduerit të përmbledhura në tabelën e mësipërme.

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model_id = "tiiuae/falcon-180B"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

prompt = "My name is Pedro, I live in"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

output = model.generate(
    input_ids=inputs["input_ids"],
    attention_mask=inputs["attention_mask"],
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
    max_new_tokens=50,
)
output = output[0].to("cpu")
print(tokenizer.decode(output)

Kjo mund të prodhojë një rezultat të tillë si:

My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video.
I love to travel and I am always looking for new adventures. I love to meet new people and explore new places.p

8-bit dhe 4-bit me bitsandbytes

Versionet e kuantizuara 8-bit dhe 4-bit të Falcon 180B nuk tregojnë pothuajse asnjë ndryshim në vlerësim në lidhje me referencën bfloat16! Ky është një lajm shumë i mirë për konkluzion, pasi mund të përdorni me siguri një version të kuantizuar për të zvogëluar kërkesat e harduerit. Sidoqoftë, mbani në mend se përfundimi 8-bit është shumë më i shpejtë sesa ekzekutimi i modelit në 4-bit.

Për të përdorur kuantizimin, duhet të instaloni bibliotekën bitsandbytes dhe thjesht të aktivizoni flamurin përkatës kur ngarkoni modelin:

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    load_in_8bit=True,
    device_map="auto",
)

Modeli i bisedës

Siç u përmend më lart, versioni i modelit i akorduar mirë për të ndjekur bisedat përdori një model trajnimi shumë të drejtpërdrejtë. Ne duhet të ndjekim të njëjtin model për të ekzekutuar konkluzionet e stilit të bisedës. Për referencë, mund t'i hidhni një sy funksionit format_prompt në demonstrimin e Chat, i cili duket si ky:

def format_prompt(message, history, system_prompt):
    prompt = ""
    if system_prompt:
        prompt += f"System: {system_prompt}\n"
    for user_prompt, bot_response in history:
        prompt += f"User: {user_prompt}\n"
        prompt += f"Falcon: {bot_response}\n"
        prompt += f"User: {message}\nFalcon:"
    return prompt

Siç mund ta shihni, ndërveprimet nga përdoruesi dhe përgjigjet nga modeli paraprihen nga ndarësit User: dhe Falcon: . Ne i lidhim ato së bashku për të formuar një kërkesë që përmban të gjithë historinë e bisedës. Ne mund të ofrojmë një kërkesë të sistemit për të ndryshuar stilin e gjenerimit.

Artikulli tjetër ka të bëjë me mënyrën e konfigurimit të pajisjeve për të rregulluar mirë një lloj LLM-je Falcon-180B. Na ndiqni artikullin vijues.

Referenca:

  1. https://huggingface.co/blog/falcon-180b
  2. https://huggingface.co/tiiuae/falcon-180B
  3. https://falconllm.tii.ae/
  4. https://huggingface.co/space/tiiuae/falcon-180b-demo