Pjesa 4: Zbatimi i Skip-Gram - Naive Softmax

Kjo është pjesa 4 e një serie me 5 pjesë. Për të lundruar në pjesët e tjera, ju lutemi ndiqni lidhjet e mëposhtme:

Pjesa 1: Matrica e bashkë-ndodhjes
Pjesa 2: Qasjet e bazuara në mësim (CBOW dhe Skip-Gram)
Pjesa 3: Kampionimi negativ
Pjesa 4: Kapërce- Implementimi i Gramit — Naive Softmax
Pjesa 5: Zbatimi Skip-Gram — Mostrimi Negativ

Kjo pjesë e postimit e cila fokusohet në zbatimin e një modeli Skip-Gram word2vec. Këtu, ne llogarisim gradientët e funksionit objektiv në lidhje me parametra të ndryshëm, dhe më pas kalojmë duke bërë të njëjtën gjë për metodën kampionimi negativ.

Gradientët e funksionit objektiv: rasti naiv softmax

Këtu do të punojmë me funksionin objektiv të modelit Skip-Gram dhe do të llogarisim gradientët e tij në lidhje me vektorët e fjalëve qendër dhe jashtë në mënyrë që të mund të ecim në drejtim negativ të gradientëve gjatë procesin tonë të optimizimit. Siç u përkufizua më parë, probabiliteti i fjalës jashtë i dhënë një fjalë qendër, [d.m.th. P(O=0 | C=c) ] jepet si:

Më pas, ne mund të përcaktojmë një funksion objektiv të bazuar në naiv softmax për ta minimizuar gjatë procesit të optimizimit, i cili thjeshtohet më tej në një funksion probabiliteti log-negativ.

U në ekuacionin e mësipërm është një matricë, kolona k- e së cilës (uk) përfaqëson vektorin e fjalës së fjalës jashtë të indeksuar nga k. Shënim: Kjo është referuar si W më parë.

Gradientet në lidhje me vektorin e fjalës qendrore, vc

Gradientët në lidhje me secilin nga vektorët e jashtëm, uw

Gradientët në lidhje me të gjithë vektorët e fjalëve të jashtme, U

Zbatimi i funksionit të humbjes me bazë naive-softmax dhe llogaritjes së gradientit

Tani që kemi nxjerrë gradientët e funksionit të humbjes në lidhje me parametrat e tij, ne mund ta zbatojmë atë shumë lehtë në python.

"Shko te Pjesa 5: Zbatimi i Skip-Gram - Kampionimi negativ"

"Eksploroni depon e GitHub"

Referencat

  1. Mikolov, Tomas, Kai Chen, Greg Corrado dhe Jeffrey Dean. "Vlerësimi efikas i paraqitjeve të fjalëve në hapësirën vektoriale." arXiv paraprintimi arXiv:1301.3781 (2013).
  2. Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S. Corrado dhe Jeff Dean. "Përfaqësime të shpërndara të fjalëve dhe frazave dhe përbërjes së tyre." Përparimet në sistemet e përpunimit të informacionit nervor 26 (2013).
  3. Rong, Xin. "Shpjegohet mësimi i parametrave word2vec." arXiv paraprintimi arXiv:1411.2738 (2014).
  4. https://web.stanford.edu/class/cs224n/index.html