Një analizë e thellë e trollëve rusë me Apache Pinot dhe Superset

Historia pas dezinformimit rus është një temë e dendur dhe vazhdimisht në zhvillim. Hulumtimi më i mirë në botë nuk është dukur ende i përhapur, gjë që e bëri këtë një mundësi të shkëlqyer për të parë nëse mund të përdorja disa mjete me burim të hapur për të nxjerrë në pah prova të reja analitike.

Databaza premierë e disponueshme për studiuesit mbi këtë temë ka shumë histori. Studiuesit nga Universiteti Clemson, Darren Linvill dhe Patrick Warren, publikuan një grup të dhënash që përmban 2,973,371 cicërima nga një rrjet prej 2,848 llogarish të rreme që i përkasin IRA-s. Darren dhe Patrick i kanë shtuar një thellësi të jashtëzakonshme kësaj teme gjatë viteve për të ndihmuar në monitorimin dhe trajtimin e "ndikimit malinj të huaj" në platformat e mediave sociale.

“Në zemër, nëse agjencitë e sigurisë dhe aktorët politikë në të gjithë botën demokratike do të zbulojnë dhe pengojnë një veprim të tillë në të ardhmen, është thelbësore që ne të kuptojmë modelin e një aktiviteti të tillë strategjik të mediave sociale dhe të zhvillojmë mjete për t'i rezistuar atij kur të shfaqet. ”

""Rusët po ma hakojnë trurin!""

— Darren Linvill, Patrick Warren, Brandon Boatwright dhe Will Grant

Të dhënat e mëdha u publikuan nga studiuesit Clemson dhe me burim të hapur përmes "FiveThirtyEight" në GitHub. Ju mund të lexoni më shumë rreth historisë pas grupit të të dhënave dhe informacionit të skemës në "depo git këtu".

Depo me burim të hapur

Në këtë postim në blog, unë do t'ju tregoj se si të përdorni "Apache Pinot" dhe "Superset" për të analizuar 3 milion cicërima nga Agjencia e Kërkimeve në Internet (IRA) me burim të hapur nga FiveThirtyEight.

Për të filluar dhe funksionuar me shembullin e projektit që diskutoj në këtë postim në blog dhe ju lutemi drejtohuni te depoja ime me burim të hapur me recetën e bootstrap.

https://github.com/kbastani/russian-troll-analysis

Duke analizuar grupin e të dhënave

Për të bërë analiza eksploruese efikase mbi miliona cicërima në kohë reale kërkon një dyqan të shpejtë të dhënash të krijuar për ta bërë pikërisht këtë. Apache Pinot ofron aftësitë e pyetjes së pasme që më mundësoi të bëj këtë kërkim. Duke e çuar atë në nivelin tjetër, më duhej një mjet për të krijuar tabela dhe tabela në krye të Pinot, për të cilat Apache Superset luajti një rol të përsosur.

Analiza ime filloi me disa supozime bazë të bazuara në hulumtimet e mia të mëparshme mbi këtë temë. Së pari, doja të bëja një hap prapa nga besimet ekzistuese se trollët përdorën strategji për të ndikuar në rezultatin e dëshiruar të zgjedhjeve. Ky supozim është famëkeq dhe mund të ketë çuar në hetime komplekse të politizuara si nga mediat e lajmeve ashtu edhe nga anëtarët e kongresit pas vitit 2016.

Pra, mendova me vete, po sikur ndërhyrja në zgjedhje duke përdorur mediat sociale nuk është teknikisht e mundur?

Eksplorimi i të dhënave

Pas ngarkimit të të dhënave të papërpunuara në Apache Pinot, hapi i parë ishte verifikimi i analizës që fillimisht ishte siguruar nga FiveThirtyEight në 2018. Grafiku i parë që ata treguan ishte një pamje e thjeshtë e aktivitetit që u përpoq të tregonte ndërhyrje të mundshme në zgjedhje në 2016.

Për të verifikuar që kisha të njëjtin grup të dhënash, gjenerova një pyetje SQL dhe vizualizim duke përdorur Pinot dhe Superset.

Pasi verifikova që pyetja ime përputhej me grafikun e studiuesve të Clemson, shkova më tej për të kuptuar veçori të tjera në grupin e të dhënave.

Grafiku i mësipërm tregon punën e gjerë që studiuesit e Clemson bënë për të kategorizuar qëllimet dhe sjelljet e llogarive të rreme të IRA-s. Kjo pikëpamje e të dhënave është ajo ku, për mua, gjërat u prishën me supozimin e ndërhyrjes në zgjedhje. Twitter është një sistem dinamik i ndërlikuar veprimi dhe reagimi, dhe ndodh aq shpejt sa do të ishte e vështirë të luante sistemin me ndonjë rezultat të dëshiruar.

Vendosa të zhvilloj një grafik që tregonte më lehtë historinë e sjelljeve të llojeve të ndryshme të llogarive Twitter në grupin e të dhënave.

Grafiku me të cilin dola zbut aktivitetet e treguara në vizualizimin FiveThirtyEight. Këtu shohim se ka një aktivitet të fortë që nga viti 2015 që mund të mos ketë lidhje me ndërhyrje në zgjedhje. Ajo që më duhej të shihja ishte një pamje e rrëfimeve në secilën prej këtyre pikave. Mendova se mund të ishte e dobishme të shikoja nëse tema ose tema të veçanta në mediat kryesore të lajmeve i shpjegonin këto pika.

Grafiku i mësipërm tregon të gjitha përmendjet në lidhje me Fox News për trollët e duhur. Kjo pyetje tregoi një aktivitet interesant të mprehtë, kështu që vendosa të kontrolloja titullin në Fox News për 10 qershor 2015.

Ajo që më tronditi në lidhje me këtë rezultat ishte se ishte tmerrësisht e ngjashme me narrativat që pasuan vdekjen tragjike të George Floyd në maj 2020. Për të kuptuar nëse kishte ndonjë gjë në këtë titull të veçantë në lidhje me grupin e të dhënave në Twitter, vendosa të krahasoja Fox News me lajme të tjera organet mediatike.

Më sipër është një pamje e faqes së internetit të CNN disa orë pasi Fox News shfaqi titullin e tyre. Dallimi i madh në mbulimin e lajmeve midis dy faqeve është se Fox News përdori terma që ishin narrativa në tweet-et e IRA-s, ndërsa CNN jo. Ndërsa kjo ishte vetëm një pikë e të dhënave, më duhej të kuptoja nëse narrativa drejtonte apo jo ciklin e lajmeve ose anasjelltas. Cili erdhi i pari dhe si ndryshoi mbulimi i lajmeve me kalimin e kohës?

Grafiku më poshtë tregon ngjarjen e origjinës ku policia dhe padrejtësia racore filluan si një tregim. Pyetja që kam përdorur për të filtruar rezultatet është një kërkim i bazuar në rëndësi duke përdorur fjalë kyçe që gjenden në titullin e 10 qershorit në faqen e Fox News. Apache Pinot ka një zbatim të indeksimit të tekstit të plotë bazuar në Apache Lucene, i cili më lejon të kthej rezultatet në lidhje me pyetjen time.

Këtu shohim se ka një ngjarje të qartë të origjinës së narrativës rreth padrejtësisë racore dhe policisë më 10 qershor 2015. Rrëfimi fillon me aktivitetin spiking të dominuar nga trollët e duhur. Midis këtyre thumbave blu, ne kemi mbajtur aktivitet nga trollët e majtë në të njëjtin tregim. Spikat e fundit, përsëri, dominohen nga trollët e duhur.

Pasi u zbut të dhënat, arrita të shihja se pika më masive në grafik është muaji i plotë i gushtit 2017. Kontrollova titujt e lajmeve për atë muaj duke përdorur Wayback Machine dhe i krahasova tregimet me tregimet e duhura troll përsëri në qershor 2015.

Rrëfimet në mediat e lajmeve ishin tashmë plotësisht në përputhje me përmbajtjen ideologjike të dy viteve më parë. Tema konsistente? Terror, frikë, zemërim dhe zemërim.

Në këtë pikë, gjëja kryesore për mua ishte se ideologjitë dhe frazat toksike në grupin e të dhënave të IRA ishin bërë të përhapura në titujt më të fundit të mediave të lajmeve. Për të kuptuar se si po evoluonin ideologjitë dhe narrativat, vendosa të pasuroj grupin e të dhënave origjinale duke përdorur njohjen e entitetit të emërtuar nga burimi i hapur Biblioteka Stanford CoreNLP.

Emërtuar Njohja e Entit

Për të shkuar më tej për të kuptuar përmbajtjen semantike dhe narrativat e tweet-eve të IRA-s kërkon përpunim të gjuhës natyrore të bazuar në seri kohore. Idealisht, doja të kurseja veten nga lidhja e përmbajtjes së grafikëve të serive kohore me cicërima individuale, por përkundrazi, entitetet e tekstit që përmbahen në të gjitha cicërimat.

Projekti Stanford NLP ofron një bibliotekë të bazuar në JDK për kryerjen e "njohjes së entitetit të emërtuar (NER)". Unë e kam përdorur këtë bibliotekë në tweet në të kaluarën dhe funksionon mjaft mirë.

Grafiku i mësipërm tregon numrin e cicërimave që përmbanin një entitet të emërtuar për një kategori të caktuar.

Ky grafik tjetër tregon numrin e emrave të ndryshëm të njësive që i përkasin secilës kategori. Për këtë grafik, unë kam filtruar handle dhe url, të cilat janë të parëndësishme për të kuptuar narrativat e ndryshme pas llogarive të rreme.

Tani që kemi një kuptim mjaft të mirë të shpërndarjes së entiteteve dhe kategorive, mund të fillojmë të shikojmë se çfarë përmban secila kategori. Konkretisht, ne duam të shohim entitetet e përmendura që klasifikojnë narrativat e llogarive të ndryshme false.

Njerëzit

Ky grafik përmban numrin e cicërimave sipas kategorisë së llogarisë së rreme për entitetet e personave.

Organizatat

Ky grafik përmban numrin e cicërimave sipas kategorisë së llogarisë së rreme për entitetet e organizatës.

Kallëzime penale

Ky grafik përmban numrin e cicërimave sipas kategorisë së llogarisë së rreme për akuza penale.

Shkaqet e vdekjes

Ky grafik përmban numrin e cicërimave sipas kategorisë së llogarisë së rreme për shkaqet e vdekjes.

Të ndryshme

Ky grafik përmban numrin e cicërimave sipas kategorisë së llogarisë së rreme për entitete të ndryshme.

Titujt

Ky grafik përmban numrin e cicërimave sipas kategorisë së llogarisë së rreme për subjektet që përfaqësojnë tituj të ndryshëm që i referohen një personi.

Ideologjitë

Ky grafik përmban numrin e cicërimave sipas kategorisë së llogarisë së rreme për ideologjitë.

Seritë kohore të ideologjisë

Ky grafik është një seri kohore që tregon një shpërndarje të zbutur të ideologjive të përmendura në tweet.

Ideologjitë e duhura troll

Ky grafik tjetër tregon ideologjitë e përdorura për llogaritë e duhura troll.

Ideologjitë e trollit të majtë

Ky grafik tregon ideologjitë e përdorura për llogaritë e trollit të majtë.

Nxjerrja e përfundimeve

A ishte e mundur që trollët e IRA-s ishin të suksesshëm në ndërhyrjen në zgjedhjet në Shtetet e Bashkuara? Për t'iu përgjigjur kësaj pyetjeje, mendoj se është thelbësore të kuptojmë se çfarë do të thotë ndërhyrje në zgjedhje.

Çfarë është ndërhyrja në zgjedhje?

Ndërhyrja në zgjedhje është një term politik i mjegullt që ka pak ose aspak peshë ligjore kur përdoret nga politikanët. "Ndikimi keqdashës i huaj", megjithatë, është një term që përshkruan fushatat e financuara nga shteti-komb të përdorura për të ndikuar në opinionin publik të votuesve. Kur kombet e huaja përpiqen të ndikojnë në opinionin publik, dhe po ashtu me të, votuesit e zgjedhjeve, është një shqetësim i sigurisë kombëtare.

Tani, po në lidhje me ndërhyrjen e brendshme në zgjedhje?

Ndërhyrja e brendshme në zgjedhje është një term tërësisht i sajuar që përafërsisht përkthehet në "fushatë për një kandidat politik". Për sa kohë që politikanët po u binden ligjeve të financimit të fushatës dhe nuk janë të përfshirë në asnjë formë të mashtrimit zgjedhor, ata janë të lirë të ndërhyjnë në zgjedhje pa përgjegjësi ligjore brenda vendit. "Përjashtimi i vetëm nga ky rregull" që mund të gjeja ishte kur fjalimi politik në mediat sociale, për shembull, është një kërcënim për sigurinë kombëtare ose sigurinë publike.

A ndërhyri aktiviteti i IRA-s në Twitter në zgjedhjet në SHBA?

Absolutisht, por jo për arsyet që mendojnë shumica e njerëzve. Pasi i kam analizuar gjerësisht këto postime në Twitter, është e qartë për mua se ndërhyrja në zgjedhje nuk ishte qëllimi. Në vend të kësaj, qëllimi i këtyre tre milionë postimeve në Twitter ishte përforcimi i terrorit, zemërimit, frikës dhe mbjelljes së përçarjes në sheshin publik. Dëmi që shkaktuan këto cicërima ishte pamundësia e askujt për të arritur në përfundimin se cili ishte qëllimi i tyre përfundimtar. Thjesht leximi i këtyre postimeve në Twitter do të reflektonte tek lexuesi çdo paragjykim ose përfundim që ata kishin para ushtrimit.

Rreziku i vërtetë i mediave sociale është mjegulla e konfuzionit që i bën njerëzit të besojnë se askush nuk e thotë të vërtetën. Në realitet, mendoj se ndoshta nuk ka një të vërtetë të thjeshtë, ose për ata që e dinë të vërtetën, nuk ka asnjë shpjegim të thjeshtë.

Sinjalizim i virtytit ndodh mes anëtarëve të partive politike, por kjo nuk është asgjë e re. Twitter mund ta përforcojë këtë efekt dhe disa politikanë mund ta gjejnë veten me ndikim joproporcional për shkak të virtytit që sinjalizojnë narrativat individuale. I takon politikanët të kuptojnë se ka një çmim për sinjalizimin e virtytit përçarës gjatë fushatave politike të kontestuara ashpër.

Twitter ka një kontroll të tepruar mbi përdoruesit që i besojnë burimit të tyre. Në fund të fundit, ne jemi krijesa sociale. Twitter na jep hapësirë për të kuptuar më mirë se si të identifikohemi me grupin tonë, me gjëra të tilla si memet dhe sinjalizimi i virtytit. Sinjalizimi i virtytit ka tendencë të fitojë më shumë pëlqime, retweet dhe ndjekës.

Sjellja e një grupi ndikon në të gjithë në një farë mënyre, dhe në Twitter, askush nuk është i imunizuar nga ndikimi keqdashës. Ndikimi keqdashës duket se lulëzon mbi idenë se sinjalizimi i virtytit është çelësi për ruajtjen e kufijve të një grupi. Duke prezantuar jashtë-grupe të rreme që janë ideologjikisht të kundërta me grupin e një përdoruesi të Twitter-it, ndikuesit e atij grupi i nënshtrohen formave më ekstreme të virtytit, duke u sinjalizuar ndjekësve të tyre. Këtu mendoj se domino filloi të binte në vitin 2015.

Zgjidhja e Problemit

Pra, si t'i ndalojmë aktorët e influencës malinje nga përhapja e narrativave toksike ose ekstreme ideologjike me anë të sinjalizimit të virtytit? Nuk mendoj se mundemi pa më shumë kërkime mbi psikologjinë pas sinjalizimit të virtytit dixhital. Aktorët e ndikimit keqdashës duhet të gjejnë vetëm një mënyrë për të hyrë në ushqimin e një anëtari me qëllime të mira të një grupi. Retweet-et dhe pëlqimet janë të dyja të cenueshme ndaj kësaj, dhe duhet vetëm një person të cilit i besoni për të përhapur ndikim keqdashës në të gjithë një grup.

Po për një zgjidhje?

Unë mendoj se zgjidhja e këtij problemi në Twitter kërkon zvogëlimin e amplifikimit të retweet-eve dhe rimendimin e algoritmit të rekomandimit. Temat duhet të përqendrohen me shpresë në burimet jopolitike të sinjalizimit të virtytit në vend të atyre që bazohen në frikë, zemërim ose zemërim. Ky nuk është një problem i thjeshtë për t'u zgjidhur dhe shpresoj të shoh më shumë të dhëna dhe kërkime ndërsa Twitter merr një kontroll mbi gjërat.

Mendimet e fundit

Shpresoj se ky artikull ishte interesant dhe i dobishëm për lexuesit. Nëse keni ndonjë reagim, koment, korrigjim ose rekomandim, ju lutem mos ngurroni të më kontaktoni këtu ose në Twitter. I inkurajoj ata që janë mjaft të guximshëm për të eksploruar projektin me burim të hapur që kam bashkuar, i cili do t'ju lejojë të përsërisni gjetjet e mia dhe të bëni analizën tuaj mbi të dhënat.

Është një temë pasioni për mua dhe shpresoj që të jetë edhe për ju. Nuk kam kursyer asnjë përpjekje për ta bërë sa më të lehtë të jetë e mundur konfigurimin e mjedisit tuaj të analizës.

Për të filluar dhe funksionuar me shembullin e projektit që diskutoj në këtë postim në blog dhe ju lutemi drejtohuni te depoja ime me burim të hapur me recetën e bootstrap.

https://github.com/kbastani/russian-troll-analysis

Falenderime të veçanta

Falenderime të veçanta për njerëzit në komunitetin Apache Pinot për dhënien e komenteve për këtë artikull. Gjithashtu, faleminderit Darren Linvill dhe Patrick Warren dhe të tjerëve që po punojnë për të informuar vendimmarrësit mbi kërcënimin e ndikimit malinj të huaj në mediat sociale.

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Programming Languages Software Engineering Java Nodejs Algorithms Front End Development Data Tech Computer Science Development AWS HTML CSS Neural Networks Angular ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Linear Regression