Hyrje: Të dish nëse dy fjalë ose fjali janë të ngjashme ose të ndryshme është një detyrë thelbësore për modelet gjuhësore. Për fat të mirë, futjet e fjalëve dhe fjalive ofrojnë një zgjidhje të fuqishme për këtë sfidë. Në këtë artikull, ne do të shqyrtojmë konceptin e ngulitjes dhe se si ato mund të përdoren për të përcaktuar ngjashmëritë midis fjalëve dhe fjalive.

Përfshirjet e fjalëve: Përfshirjet e fjalëve janë paraqitje numerike të caktuara për çdo fjalë, duke kapur vetitë e tyre semantike. Këto paraqitje na lejojnë të matim ngjashmërinë midis fjalëve bazuar në vetitë matematikore të vektorëve të përfshirë. Për shembull, fjalët e ngjashme do të kenë vektorë më të afërt, ndërsa fjalë të ndryshme do të kenë vektorë më të ndryshëm. Këto ngulitje provojnë të jenë të paçmueshme për detyra të ndryshme.

Përfshirjet e fjalive: Vendosjet e fjalive e çojnë më tej konceptin e ngulitjes së fjalëve duke caktuar një vektor për secilën fjali. Këta vektorë kapin veti të rëndësishme të fjalive që përfaqësojnë. Për shembull, embeddings Cohere caktojnë një vektor 4096-dimensionale për çdo fjali, madje duke akomoduar tekstin shumëgjuhësh. Rrjedhimisht, fjali me kuptime të ngjashme, si "Përshëndetje, si jeni?" dhe përkthimi i tij në frëngjisht “Bonjour, koment ça va?”, do të ketë përfshirje të ngjashme.

Përdorimi i Embeddings për ngjashmëri: Ne mund të përcaktojmë dy lloje ngjashmërish: ngjashmëria e produktit me pika dhe ngjashmëria e kosinusit. Të dyja metodat janë efektive në përcaktimin e ngjashmërisë midis fjalëve ose fjalive.

Ngjashmëria e produktit me pika: Le të shqyrtojmë një shembull të thjeshtuar për të ilustruar ngjashmërinë e produktit me pika. Imagjinoni që kemi një grup të dhënash me tituj filmash të përfaqësuar nga ngulitje fjalish në një hapësirë ​​2-dimensionale:

  • Ju keni postë: [0, 5]
  • Ora e pikut: [6, 5]
  • Ora e pikut 2: [7, 4]
  • Marrë: [7, 0]

Duke analizuar këto ngulitje, ne mund të dallojmë modele të caktuara. Për shembull, rezultati i parë (0) për "You've Got Mail" sugjeron se i mungon zhanri i aksionit që gjendet në filmat e tjerë. Në mënyrë të ngjashme, rezultati i dytë (5) tregon praninë e komedisë, e cila ndahet nga "Rush Hour" dhe "Rush Hour 2", por jo nga "Taken". Duke caktuar kuptime specifike për rezultatet, ne mund të interpretojmë përfshirjet në përputhje me rrethanat.

Për të përcaktuar sasinë e ngjashmërisë, mund të përdorim produktin me pika. Nëse dy filma janë të ngjashëm, ata do të kenë rezultate të ngjashme për secilën pronë (p.sh., aksion dhe komedi). Duke shumëzuar pikët përkatëse dhe duke i mbledhur ato, marrim një pikë ngjashmërie. Rezultatet më të larta tregojnë ngjashmëri më të madhe, ndërsa pikët më të ulëta nënkuptojnë mosngjashmëri më të madhe.

Shembull:

  • Produkti me pika për [You've Got Mail, Taken] = 07 + 50 = 0
  • Produkti me pika për [Ora e pikut, Ora e pikut 2] = 67 + 54 = 62

Këto rezultate përputhen me pritjet tona, ku "Taken" dhe "You've Got Mail" janë të ndryshme, ndërsa "Rush Hour" dhe "Rush Hour 2" shfaqin ngjashmëri të lartë.

Ngjashmëria e kosinusit: Ngjashmëria e kosinusit përdor hapësirën e vektorëve të ngulitur dhe këndi midis 2 fjalive ngjashmëria e kujt duhet të kontrollohet. Këtu nëse këndi në hapësirën e vektorit të ngulitur është i lartë, do të thotë maksimumi 90 gradë, atëherë kosinusi i atij këndi është minimal, pra 0 që thotë se ngjashmëria është minimale ose 0. Anasjelltas për fjalitë e ngjashme, këndi i kujt është minimal.

Përfundim: Përfshirja e fjalëve dhe fjalive ofrojnë një mjet të fuqishëm për të përcaktuar ngjashmërinë midis fjalëve dhe fjalive. Nëpërmjet teknikave si ngjashmëria e produktit me pika, ne mund të shfrytëzojmë paraqitjet numerike të fjalëve dhe fjalive për të përcaktuar sasinë e ngjashmërive të tyre. Kjo hap një gamë të gjerë aplikimesh në përpunimin e gjuhës natyrore, rikthimin e informacionit dhe më shumë.

Duke shfrytëzuar fuqinë e futjeve, modelet e gjuhës mund të ofrojnë njohuri të vlefshme dhe ndihmë në detyra të ndryshme që kërkojnë të kuptuarit e ngjashmërive tekstuale.

burimi: https://docs.cohere.com/docs/similarity-between-words-and-sentences