Kuptimi i ngjashmërisë me futjen e fjalëve dhe fjalive

Hyrje: Të dish nëse dy fjalë ose fjali janë të ngjashme ose të ndryshme është një detyrë thelbësore për modelet gjuhësore. Për fat të mirë, futjet e fjalëve dhe fjalive ofrojnë një zgjidhje të fuqishme për këtë sfidë. Në këtë artikull, ne do të shqyrtojmë konceptin e ngulitjes dhe se si ato mund të përdoren për të përcaktuar ngjashmëritë midis fjalëve dhe fjalive.

Përfshirjet e fjalëve: Përfshirjet e fjalëve janë paraqitje numerike të caktuara për çdo fjalë, duke kapur vetitë e tyre semantike. Këto paraqitje na lejojnë të matim ngjashmërinë midis fjalëve bazuar në vetitë matematikore të vektorëve të përfshirë. Për shembull, fjalët e ngjashme do të kenë vektorë më të afërt, ndërsa fjalë të ndryshme do të kenë vektorë më të ndryshëm. Këto ngulitje provojnë të jenë të paçmueshme për detyra të ndryshme.

Përfshirjet e fjalive: Vendosjet e fjalive e çojnë më tej konceptin e ngulitjes së fjalëve duke caktuar një vektor për secilën fjali. Këta vektorë kapin veti të rëndësishme të fjalive që përfaqësojnë. Për shembull, embeddings Cohere caktojnë një vektor 4096-dimensionale për çdo fjali, madje duke akomoduar tekstin shumëgjuhësh. Rrjedhimisht, fjali me kuptime të ngjashme, si "Përshëndetje, si jeni?" dhe përkthimi i tij në frëngjisht “Bonjour, koment ça va?”, do të ketë përfshirje të ngjashme.

Përdorimi i Embeddings për ngjashmëri: Ne mund të përcaktojmë dy lloje ngjashmërish: ngjashmëria e produktit me pika dhe ngjashmëria e kosinusit. Të dyja metodat janë efektive në përcaktimin e ngjashmërisë midis fjalëve ose fjalive.

Ngjashmëria e produktit me pika: Le të shqyrtojmë një shembull të thjeshtuar për të ilustruar ngjashmërinë e produktit me pika. Imagjinoni që kemi një grup të dhënash me tituj filmash të përfaqësuar nga ngulitje fjalish në një hapësirë 2-dimensionale:

Ju keni postë: [0, 5]
Ora e pikut: [6, 5]
Ora e pikut 2: [7, 4]
Marrë: [7, 0]

Duke analizuar këto ngulitje, ne mund të dallojmë modele të caktuara. Për shembull, rezultati i parë (0) për "You've Got Mail" sugjeron se i mungon zhanri i aksionit që gjendet në filmat e tjerë. Në mënyrë të ngjashme, rezultati i dytë (5) tregon praninë e komedisë, e cila ndahet nga "Rush Hour" dhe "Rush Hour 2", por jo nga "Taken". Duke caktuar kuptime specifike për rezultatet, ne mund të interpretojmë përfshirjet në përputhje me rrethanat.

Për të përcaktuar sasinë e ngjashmërisë, mund të përdorim produktin me pika. Nëse dy filma janë të ngjashëm, ata do të kenë rezultate të ngjashme për secilën pronë (p.sh., aksion dhe komedi). Duke shumëzuar pikët përkatëse dhe duke i mbledhur ato, marrim një pikë ngjashmërie. Rezultatet më të larta tregojnë ngjashmëri më të madhe, ndërsa pikët më të ulëta nënkuptojnë mosngjashmëri më të madhe.

Shembull:

Produkti me pika për [You've Got Mail, Taken] = 07 + 50 = 0
Produkti me pika për [Ora e pikut, Ora e pikut 2] = 67 + 54 = 62

Këto rezultate përputhen me pritjet tona, ku "Taken" dhe "You've Got Mail" janë të ndryshme, ndërsa "Rush Hour" dhe "Rush Hour 2" shfaqin ngjashmëri të lartë.

Ngjashmëria e kosinusit: Ngjashmëria e kosinusit përdor hapësirën e vektorëve të ngulitur dhe këndi midis 2 fjalive ngjashmëria e kujt duhet të kontrollohet. Këtu nëse këndi në hapësirën e vektorit të ngulitur është i lartë, do të thotë maksimumi 90 gradë, atëherë kosinusi i atij këndi është minimal, pra 0 që thotë se ngjashmëria është minimale ose 0. Anasjelltas për fjalitë e ngjashme, këndi i kujt është minimal.

Përfundim: Përfshirja e fjalëve dhe fjalive ofrojnë një mjet të fuqishëm për të përcaktuar ngjashmërinë midis fjalëve dhe fjalive. Nëpërmjet teknikave si ngjashmëria e produktit me pika, ne mund të shfrytëzojmë paraqitjet numerike të fjalëve dhe fjalive për të përcaktuar sasinë e ngjashmërive të tyre. Kjo hap një gamë të gjerë aplikimesh në përpunimin e gjuhës natyrore, rikthimin e informacionit dhe më shumë.

Duke shfrytëzuar fuqinë e futjeve, modelet e gjuhës mund të ofrojnë njohuri të vlefshme dhe ndihmë në detyra të ndryshme që kërkojnë të kuptuarit e ngjashmërive tekstuale.

burimi: https://docs.cohere.com/docs/similarity-between-words-and-sentences

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Programming Languages Software Engineering Java Nodejs Algorithms Front End Development Data Tech Computer Science Development AWS HTML CSS Neural Networks Angular ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Linear Regression