Matricat në shkencën e të dhënave janë gjithmonë reale dhe simetrike

"Shkenca e të Dhënave"

Matricat në shkencën e të dhënave janë gjithmonë reale dhe simetrike

Për shkak se shkenca e të dhënave merret me probleme të botës reale, matricat në shkencën e të dhënave duhet të jenë reale dhe simetrike

Prezantimi

Algjebra lineare është një degë e matematikës që është jashtëzakonisht e dobishme në shkencën e të dhënave dhe mësimin e makinerive. Shumica e modeleve të mësimit të makinerive mund të shprehen në formë matrice. Për shkak se shkenca e të dhënave merret me probleme të botës reale, matricat në shkencën e të dhënave duhet të jenë reale dhe simetrike. Ka disa përjashtime nga kjo. Në modelet e avancuara të shkencës së të dhënave si përpunimi i imazhit, analiza Fourier përdoret shumë. Prandaj mund të hasim lehtësisht matrica që përcaktohen në hapësirën e numrave kompleksë. Përveç kësaj, për shumicën e problemeve bazë të shkencës së të dhënave dhe të mësimit të makinerive, matricat e hasura janë gjithmonë reale dhe simetrike.

Në këtë artikull, ne do të shqyrtojmë tre shembuj të modeleve të matricës reale dhe simetrike që i hasim shpesh në shkencën e të dhënave dhe mësimin e makinerisë, domethënë, matricën e regresionit (R); matrica e kovariancës dhe matrica e analizës diskriminuese lineare (L).

Shembulli 1: Matrica e regresionit linear

Supozoni se kemi një grup të dhënash që ka 4 veçori parashikuese dhe n vëzhgime siç tregohet më poshtë.

Ne dëshirojmë të ndërtojmë një model me shumë regresion për parashikimin e vlerave y (kolona 5). Kështu, modeli ynë mund të shprehet në formë

Në formën e matricës, ky ekuacion mund të shkruhet si

ku X është matrica e veçorive ( n x 4), w është matrica (4 x 1) që përfaqëson koeficientët e regresionit që do të përcaktohen dhe y > është matrica (n x 1) që përmban n vëzhgime të ndryshores së synuar y.

Vini re se X është një matricë drejtkëndëshe, kështu që nuk mund ta zgjidhim ekuacionin e mësipërm duke marrë inversin e X.

Për të kthyer X në një matricë katrore, ne shumëzojmë anën e majtë dhe të djathtë të ekuacionit tonë me transpozimin të X, kjo eshte

Ky ekuacion mund të shprehet edhe si

është matrica e regresionit (4 x 4). Në mënyrë të qartë, ne vërejmë se R është një matricë reale dhe simetrike. Vini re se në algjebër lineare, transpozimi i produktit të dy matricave i bindet marrëdhënies së mëposhtme

Tani që e kemi reduktuar problemin tonë të regresionit dhe e kemi shprehur atë në termat e matricës së regresionit (4x4) real, simetrik dhe të kthyeshëm R, është e thjeshtë të tregojmë se zgjidhja e saktë e ekuacionit të regresionit është pastaj

Shembulli 2: Matrica e Kovariancës

Supozoni se kemi një matricë karakteristikash shumë të ndërlidhura me 4 veçori dhe nvëzhgim siç tregohet në Tabela 2më poshtë:

Për të vizualizuar korrelacionet midis veçorive, ne mund të gjenerojmë një grafik shpërndarjeje. Për të përcaktuar shkallën e korrelacionit midis veçorive (multikolineariteti), ne mund të llogarisim matricën e kovariancës duke përdorur këtë ekuacion:

Në formën e matricës, matrica e kovariancës mund të shprehet si një matricë reale dhe simetrike 4 x 4:

Përsëri, ne shohim se matrica kovariante është reale dhe simetrike. Kjo matricë mund të diagonalizohet duke kryer një transformim unitar, i referuar gjithashtu si transformim i Analizës së Komponentit Kryesor (PCA) për të marrë sa vijon:

Meqenëse gjurma e një matrice mbetet e pandryshueshme nën një transformim unitar, vërejmë se shuma e vlerave vetjake të matricës diagonale është e barabartë me variancën totale të përfshirë në tiparet X1, X2, X3 dhe X4.

Shembulli 3: Matrica e Analizës Diskriminuese Lineare

Një shembull tjetër i një matrice reale dhe simetrike në shkencën e të dhënave është matrica e Analizës Diskriminuese Lineare (LDA). Kjo matricë mund të shprehet në formë

ku S_W është matrica e shpërndarjes brenda veçorive dhe S_Bështë matrica e shpërndarjes ndërmjet veçorive. Meqenëse të dyja matricat S_WdheS_Bjanë reale dhe simetrike, rrjedh se L është gjithashtu reale dhe simetrike. Diagonalizimi i L prodhon një nënhapësirë të veçorive që optimizon ndarjen e klasave dhe redukton dimensionalitetin. Prandaj LDA është një algoritëm i mbikëqyrur, ndërsa PCA jo.

Për më shumë detaje rreth zbatimit të LDA, ju lutemi shikoni referencat e mëposhtme:

"Mësimi i makinerisë: Reduktimi i dimensioneve përmes analizës lineare diskriminuese"

"Depoja e GitHub për zbatimin e LDA duke përdorur të dhënat e Iris"

"Mësimi i Makinerisë Python nga Sebastian Raschka, Botimi i 3-të (Kapitulli 5)"

Përmbledhje

Në përmbledhje, ne kemi diskutuar tre shembuj të matricave reale dhe simetrike në shkencën e të dhënave dhe mësimin e makinerive, domethënë, matricën e regresionit (R); matrica e kovariancës dhe matrica e analizës diskriminuese lineare (L). Për shkak se shkenca e të dhënave merret me probleme të botës reale, matricat në shkencën e të dhënave duhet të jenë reale dhe simetrike.

Burimet shtesë të shkencës së të dhënave/makinerisë

"Sa matematikë më nevojitet në shkencën e të dhënave?"

"Kurrikula e shkencës së të dhënave"

"5 Diplomat më të mira për të hyrë në shkencën e të dhënave"

"Bazat teorike të shkencës së të dhënave - A duhet të kujdesem apo thjesht të fokusohem në aftësitë praktike?"

"Planifikimi i projektit të mësimit të makinës"

"Si të organizoni projektin tuaj të shkencës së të dhënave"

"Mjetet e produktivitetit për projektet e shkencës së të dhënave në shkallë të gjerë"

"Një portofol i shkencës së të dhënave është më i vlefshëm se një rezyme"

Për pyetje dhe pyetje, ju lutemi më dërgoni email: [email protected]

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Programming Languages Software Engineering Java Nodejs Algorithms Front End Development Data Tech Computer Science Development AWS HTML CSS Neural Networks Angular ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Linear Regression