Një përmbledhje e shpejtë e përpunimit të gjuhës natyrore

Doja të ndaja një perspektivë të shkurtër të evolucionit radikal që kemi parë në NLP. Unë kam punuar në problemet e NLP për dekadën e fundit dhe ka qenë e jashtëzakonshme të shoh se sa shpejt kanë evoluar modelet, problemet dhe aplikacionet.

Rreth një dekadë më parë,word2vec ishte një shembull i hershëm i një rrjeti nervor të cekët, por rrjetat më të thella si RNN dhe LSTM po bëheshin arkitektura të reja për të ndërtuar sisteme më të mira përreth. Këto modele të reja bënë përmirësime të rëndësishme në kuptimin e renditjes së fjalëve, kapjen e kontekstit dhe gjenerimin e rezultateve të njëpasnjëshme. Kam punuar në një AI të hershme bisedore të quajtur Marcel në vitin 2018 kur isha në Microsoft. Ne i kishim përdorur këto teknika, kishim shpenzuar orë të panumërta duke ndërtuar parapërpunues shumë të saktë dhe nxjerrës të entiteteve, dhe rezultati ishte ende mjaft i ngurtë duke pasur parasysh cilësinë e mahnitshme të ekipit dhe përpjekjet e bëra. Në retrospektivë, ne ishim pak përpara kohës sonë për shkak të asaj që erdhi më pas.

Në vitin 2018 kur BERT u prezantua nga Google, nuk mund të theksoj se sa shumë e ndryshoi lojën brenda komunitetit NLP. Transformatorët u përmirësuan në RNN dhe LSTM duke kapur në mënyrë efikase marrëdhëniet midis fjalëve që janë larg njëra-tjetrës në një fjali. Kjo aftësi për të kuptuar varësitë me rreze të gjatë i ndihmon transformatorët të kuptojnë më mirë kontekstin e fjalëve dhe të arrijnë performancë superiore në një sërë detyrash NLP në rrjedhën e poshtme. Me 110 milionë parametra, që ishte një numër jashtëzakonisht i lartë parametrash për atë kohë, ai rivendosi standardin në shumicën e standardeve NLP dhe u bë një bazë kritike për të matur modelet e mëvonshme.

Pas BERT, disa modele filluan të shfaqen me rrënjët e tyre në arkitekturën themelore të BERT. Këto përfshinin variacione si RoBERTa dhe DeBERTa, secila duke ofruar optimizime dhe aftësi unike. Ndërsa po shkruaj këtë, bert-base-uncasedmodel në HuggingFace është shkarkuar mbi 53 milion herë vetëm në muajin e fundit! Me fjalë të tjera, ishte dhe është një punë mjaft e madhe.

Duke ecur njëkohësisht me dominimin e BERT-it, u shfaq në heshtje një tjetër model transformues - GPT-1, i lëshuar nga OpenAI. Ai kishte 120 milionë parametra dhe ishte trajnuar me grupet e të dhënave Common Crawl dhe BookCorpus (i cili u përdor gjithashtu për të trajnuar BERT). Me GPT1, ju mund të krijoni një tekst interesant njerëzor duke u dhënë një kërkesë. Kishte kufizime të tilla si vështirësitë në gjenerimin e tekstit jashtë të dhënave mbi të cilat ishte trajnuar dhe që dukeshin të përsëritura. GPT-2 u lëshua me 1.5 miliardë parametra, dhe më pas GPT-3 mbërriti në 2020 me 175 miliardë parametra!! Çdo version i GPT ishte dukshëm më i avancuar se versioni i mëparshëm dhe GPT3 mund të trajtonte arsyetimin dhe të tingëllonte si njerëzor.

Në atë kohë, komuniteti NLP po fillonte patjetër të ndjente zhurmën e këtyre përparimeve të ndryshme. Në vetëm disa vite të shkurtra, ne kaluam nga shpenzimi i muajve në përpunimin e kujdesshëm të thënieve për t'u futur në word2vec në gjetjen e mënyrës se si t'i rregullojmë në mënyrë efektive këto modele të mëdha për të arritur një nivel të ndryshëm të të kuptuarit dhe gjenerimit të Gjuhës Natyrore.

Tani në vitin 2023, ne jemi fort në trenin hype LLM. ChatGPT nuk ishte një arkitekturë e re, por është produkti që shfaqi kërkimet dhe përparimet e jashtëzakonshme që komuniteti NLP ka prodhuar për të paktën 10 vitet e fundit. Siç e dinë të gjithë, njerëzit mund të kërkojnë çfarë të duan dhe të marrin përgjigje realiste, njerëzore nëpërmjet ndërfaqes së thjeshtë të bisedës. Për shkak të stuhisë së krijuar nga chatGPT, Google, Microsoft dhe Facebook janë në një garë armësh për të nxitur LLM-të më të mëdha, më të mira dhe më të fuqishme. Ndërkohë, OpenAI po ndërton mjete rreth ChatGPT (për shembull, shtojcat), tashmë ka lëshuar GPT4 (100 trilion parametra!!!) dhe ka udhëhequr valën e sjelljes së këtyre risive në NLP në mënyrë të vendosur në kulturën popullore.

BËHET SHKRIMËS në MLearning.ai // Fabrika e AI // Inteligjenca artificiale super e lirë.

Sugjerime për paraqitjen e Mlearning.ai
Si të bëheni shkrimtar në Mlearning.aimedium.com

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Programming Languages Software Engineering Java Nodejs Algorithms Front End Development Data Tech Computer Science Development AWS HTML CSS Neural Networks Angular ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Linear Regression