"Shkenca e të Dhënave"

Matricat në shkencën e të dhënave janë gjithmonë reale dhe simetrike

Për shkak se shkenca e të dhënave merret me probleme të botës reale, matricat në shkencën e të dhënave duhet të jenë reale dhe simetrike

Prezantimi

Algjebra lineare është një degë e matematikës që është jashtëzakonisht e dobishme në shkencën e të dhënave dhe mësimin e makinerive. Shumica e modeleve të mësimit të makinerive mund të shprehen në formë matrice. Për shkak se shkenca e të dhënave merret me probleme të botës reale, matricat në shkencën e të dhënave duhet të jenë reale dhe simetrike. Ka disa përjashtime nga kjo. Në modelet e avancuara të shkencës së të dhënave si përpunimi i imazhit, analiza Fourier përdoret shumë. Prandaj mund të hasim lehtësisht matrica që përcaktohen në hapësirën e numrave kompleksë. Përveç kësaj, për shumicën e problemeve bazë të shkencës së të dhënave dhe të mësimit të makinerive, matricat e hasura janë gjithmonë reale dhe simetrike.

Në këtë artikull, ne do të shqyrtojmë tre shembuj të modeleve të matricës reale dhe simetrike që i hasim shpesh në shkencën e të dhënave dhe mësimin e makinerisë, domethënë, matricën e regresionit (R); matrica e kovariancës dhe matrica e analizës diskriminuese lineare (L).

Shembulli 1: Matrica e regresionit linear

Supozoni se kemi një grup të dhënash që ka 4 veçori parashikuese dhe n vëzhgime siç tregohet më poshtë.

Ne dëshirojmë të ndërtojmë një model me shumë regresion për parashikimin e vlerave y (kolona 5). Kështu, modeli ynë mund të shprehet në formë

Në formën e matricës, ky ekuacion mund të shkruhet si

ku X është matrica e veçorive ( n x 4), w është matrica (4 x 1) që përfaqëson koeficientët e regresionit që do të përcaktohen dhe y > është matrica (n x 1) që përmban n vëzhgime të ndryshores së synuar y.

Vini re se X është një matricë drejtkëndëshe, kështu që nuk mund ta zgjidhim ekuacionin e mësipërm duke marrë inversin e X.

Për të kthyer X në një matricë katrore, ne shumëzojmë anën e majtë dhe të djathtë të ekuacionit tonë me transpoziminX, kjo eshte

Ky ekuacion mund të shprehet edhe si

ku

është matrica e regresionit (4 x 4). Në mënyrë të qartë, ne vërejmë se R është një matricë reale dhe simetrike. Vini re se në algjebër lineare, transpozimi i produktit të dy matricave i bindet marrëdhënies së mëposhtme

Tani që e kemi reduktuar problemin tonë të regresionit dhe e kemi shprehur atë në termat e matricës së regresionit (4x4) real, simetrik dhe të kthyeshëm R, është e thjeshtë të tregojmë se zgjidhja e saktë e ekuacionit të regresionit është pastaj

Shembulli 2: Matrica e Kovariancës

Supozoni se kemi një matricë karakteristikash shumë të ndërlidhura me 4 veçori dhe nvëzhgim siç tregohet në Tabela 2më poshtë:

Për të vizualizuar korrelacionet midis veçorive, ne mund të gjenerojmë një grafik shpërndarjeje. Për të përcaktuar shkallën e korrelacionit midis veçorive (multikolineariteti), ne mund të llogarisim matricën e kovariancës duke përdorur këtë ekuacion:

Në formën e matricës, matrica e kovariancës mund të shprehet si një matricë reale dhe simetrike 4 x 4:

Përsëri, ne shohim se matrica kovariante është reale dhe simetrike. Kjo matricë mund të diagonalizohet duke kryer një transformim unitar, i referuar gjithashtu si transformim i Analizës së Komponentit Kryesor (PCA) për të marrë sa vijon:

Meqenëse gjurma e një matrice mbetet e pandryshueshme nën një transformim unitar, vërejmë se shuma e vlerave vetjake të matricës diagonale është e barabartë me variancën totale të përfshirë në tiparet X1, X2, X3 dhe X4.

Shembulli 3: Matrica e Analizës Diskriminuese Lineare

Një shembull tjetër i një matrice reale dhe simetrike në shkencën e të dhënave është matrica e Analizës Diskriminuese Lineare (LDA). Kjo matricë mund të shprehet në formë

ku S_W është matrica e shpërndarjes brenda veçorive dhe S_Bështë matrica e shpërndarjes ndërmjet veçorive. Meqenëse të dyja matricat S_WdheS_Bjanë reale dhe simetrike, rrjedh se L është gjithashtu reale dhe simetrike. Diagonalizimi i L prodhon një nënhapësirë ​​të veçorive që optimizon ndarjen e klasave dhe redukton dimensionalitetin. Prandaj LDA është një algoritëm i mbikëqyrur, ndërsa PCA jo.

Për më shumë detaje rreth zbatimit të LDA, ju lutemi shikoni referencat e mëposhtme:

"Mësimi i makinerisë: Reduktimi i dimensioneve përmes analizës lineare diskriminuese"

"Depoja e GitHub për zbatimin e LDA duke përdorur të dhënat e Iris"

"Mësimi i Makinerisë Python nga Sebastian Raschka, Botimi i 3-të (Kapitulli 5)"

Përmbledhje

Në përmbledhje, ne kemi diskutuar tre shembuj të matricave reale dhe simetrike në shkencën e të dhënave dhe mësimin e makinerive, domethënë, matricën e regresionit (R); matrica e kovariancës dhe matrica e analizës diskriminuese lineare (L). Për shkak se shkenca e të dhënave merret me probleme të botës reale, matricat në shkencën e të dhënave duhet të jenë reale dhe simetrike.

Burimet shtesë të shkencës së të dhënave/makinerisë

"Sa matematikë më nevojitet në shkencën e të dhënave?"

"Kurrikula e shkencës së të dhënave"

"5 Diplomat më të mira për të hyrë në shkencën e të dhënave"

"Bazat teorike të shkencës së të dhënave - A duhet të kujdesem apo thjesht të fokusohem në aftësitë praktike?"

"Planifikimi i projektit të mësimit të makinës"

"Si të organizoni projektin tuaj të shkencës së të dhënave"

"Mjetet e produktivitetit për projektet e shkencës së të dhënave në shkallë të gjerë"

"Një portofol i shkencës së të dhënave është më i vlefshëm se një rezyme"

Për pyetje dhe pyetje, ju lutemi më dërgoni email: [email protected]