Crypto.com, Microsoft, NVidia dhe Okta të gjithë u hakeruan këtë vit. Në disa hakime, sulmuesit po kërkojnë të marrin të dhëna, ndërsa disa thjesht po i provojnë gjërat. Sido që të jetë, është në interes të kompanive që të rregullojnë vrimat në sistemet e tyre të sigurisë pasi më shumë sulmues po mësojnë të përfitojnë prej tyre. Projekti për të cilin po punoj tani është një për të parandaluar kërcënimet kibernetike si këto të ndodhin.

Kur një kompani hakerohet, ka shumë në rrezik. E para është privatësia e punonjësve dhe klientëve. Nëse dikush jashtë kompanisë fiton akses në informacionin e punonjësve privatë ose të klientëve, nuk duhet të shpjegoj pse kjo është një gjë e keqe.

Gjëja e dytë që mund të bëjë një hak është që potencialisht të shkaktojë dëme të pakthyeshme të markës, në varësi të kompanisë. Nëse një konsulencë për sigurinë kibernetike hakohet, kjo do të shkaktojë dëme të mëdha në markë. Një zinxhir ushqimesh dyqanesh, ndoshta disi më pak dëme, por kërcënimi është ende aty, pavarësisht industrisë në të cilën punon kompania.

Frika e investitorëve: Ky ndikim i tretë që mund të ketë një haker shkakton humbje të mëdha në afat të shkurtër. Pas hakimit të saj në fillim të këtij viti, Okta humbi mbi 7% të vlerës së aksioneve brenda natës, duke shkaktuar humbje të shumë parave për aksionerët e saj.

Një ndikim tjetër që një haker mund të ketë në një kompani është besimi i klientit dhe klientit në kompani. Pse do të punonit me një kompani si klient ose do të blinit prej tyre si klient nëse e dini se informacioni juaj personal është në rrezik?

Si mund t'i identifikojmë kërcënimet e sigurisë kibernetike përpara se ato të bëhen kërcënime dhe të ndërmarrim veprime proaktive për të siguruar më shumë sistemet tona të korporatave për të parandaluar sulmet e ardhshme?

Përgjigja: hetues. Shumë hakerë do të kryejnë një analizë paraprake të një sistemi përpara se të vendosin të ndërhyjnë. Gjatë fazës së hetimit, sulmuesit duhet të lidhen me serverin në të cilin po përpiqen të hyjnë në mënyrë që të mbledhin informacion rreth strukturës së serverit, çdo port të hapur ku mund të hyjnë, infrastrukturën mbështetëse, sistemet operative, bazat e të dhënave dhe çdo dobësi që mund të ekzistojë.

Shpresa ime është që të ketë një ndryshim të dukshëm në komunikimin e paketave midis përdoruesit dhe serverit kur një përdorues i paautorizuar po heton, kundrejt kur një përdorues i autorizuar po hyn në një server të korporatës. Unë dua të krijoj një model të të mësuarit të thellë që do të identifikojë dhe klasifikojë midis një përdoruesi të autorizuar dhe një hakeri që është në fazat paraprake të përpjekjes së tyre për hakim.

Sfida e parë është mbledhja e të dhënave. Do të më duhen të dhëna që kanë të dyja, 1) të dhëna të autorizuara dhe të paautorizuara të përdoruesit kur përpiqen të hyjnë në një server, dhe 2) të dhënat e paautorizuara të përdoruesit duhet të referohen kur një sulmues po përpiqet posaçërisht të marrë informacion rreth një serveri përmes kërkimit. Unë munda të gjeja një grup të dhënash të shkëlqyera me afërsisht 400,000 rreshta të quajtur HIKARI-2021: Gjenerimi i grupit të të dhënave të zbulimit të ndërhyrjeve në rrjet bazuar në trafikun e sulmeve sintetike reale dhe të koduara. Çdo rresht në këtë grup të dhënash është përfaqësues i një grupi të dhënash pakete që komunikohen ndërmjet një përdoruesi dhe serverit.

Nga atje, unë mund të kryej disa analiza të të dhënave eksploruese. Shpresojmë se këtu do të gjej disa njohuri interesante mbi ndryshimet midis trafikut të përdoruesve të autorizuar dhe trafikut të sulmuesit.

Unë nuk jam aq i shqetësuar me zhvillimin e konkluzioneve nga faza ime e modelimit për këtë projekt. Arsyeja është se, në raste si ky ku kemi nevojë për identifikim të shpejtë të skanimeve nga sulmuesit, nuk kemi nevojë të dimë detajet se si identifikohet modeli midis një sulmuesi dhe një përdoruesi të autorizuar - që nuk është domosdoshmërisht informacion përkatës. Kështu, ka të ngjarë të ketë shumë transformime në procesin e të dhënave të mia. Një prej të cilave kam besim se do të përfundoj duke përdorur është Analiza e Komponentit Kryesor (PCA).

PCA është jashtëzakonisht i dobishëm në rastet kur, 1) ka shumë kolona në grupin e të dhënave dhe/ose 2) ka shqetësime rreth multikolinearitetitbrenda të dhënave. Kjo pikë e dytë është veçanërisht shqetësuese për mua në lidhje me këtë grup të dhënash, pasi ka rreth 80 kolona, ​​por shumë prej tyre i përkasin të njëjtës matje pakete, por ose në shkallë të ndryshme ose me statistika përmbledhëse si paketat mesatare, maksimale ose minimale të dërguara.

PCA është një metodë e reduktimit të dimensionalitetit që identifikon marrëdhëniet e rëndësishme në të dhëna, transformon të dhënat ekzistuese bazuar në ato marrëdhënie dhe më pas përcakton rëndësinë ose peshën e atyre marrëdhënieve në mënyrë që të mund të mbajmë marrëdhëniet më të rëndësishme duke hequr ato më pak të rëndësishmet. Ai e bën këtë duke gjeneruar një matricë të bashkëvariancës që lidhet me të gjitha pikat e të dhënave dhe kryen eigendecomposition- ku i shkallëzon dhe i zhvendos të dhënat në një nivel dimensionaliteti me të cilin është më e lehtë të punohet. Pra, në vend që të kem 80 kolona për të parashikuar një sondë, unë mund të kem 35 kolona, ​​secila që përfaqëson një marrëdhënie në të dhëna, duke u dhënë përparësi kolonave që do të kenë ndikimin më të madh në saktësinë parashikuese.

Mund të imagjinoni që një metodë që i transformon të dhënat në një ekstrem si ky do ta bënte të vështirë interpretimin e rezultateve dhe do të kishit të drejtë. Përsëri, përfundimi nuk është prioriteti im këtu, saktësia parashikuese është. Qëllimi është të identifikohen kërcënimet e sigurisë kibernetike, jo të kuptojmë pse ato janë kërcënime.

Në momentin e shkrimit të kësaj, unë jam aktualisht në procesin e EDA dhe kam kryer disa modelime bazë vetëm për të parë se çfarë mund të dal. Me një tubacion të përbërë nga PCA me 35 komponentë, MinMaxScaler dhe një model bazë të regresionit logjistik, unë arrita të arrij një normë të vërtetë pozitive prej 98%. Bazuar në natyrën e problemit, unë planifikoj të maksimizoj pozitivet e vërteta dhe të minimizoj negativet e rreme për të mos ngatërruar një kërcënim sigurie si përdorues i autorizuar. Jam i bindur se sapo të futem në pjesën e mësimit të thellë të këtij projekti, do të jem në rrugën time të mirë për të arritur një saktësi pothuajse të përsosur në këtë model.

Nëse dëshironi të qëndroni të përditësuar për ecurinë e këtij projekti, kontrolloni në depon e Github: https://github.com/linjoshua882/deep-learning-cybersecurity-intrusion-detection