"Shkenca e të Dhënave"
Matricat në shkencën e të dhënave janë gjithmonë reale dhe simetrike
Për shkak se shkenca e të dhënave merret me probleme të botës reale, matricat në shkencën e të dhënave duhet të jenë reale dhe simetrike
Prezantimi
Algjebra lineare është një degë e matematikës që është jashtëzakonisht e dobishme në shkencën e të dhënave dhe mësimin e makinerive. Shumica e modeleve të mësimit të makinerive mund të shprehen në formë matrice. Për shkak se shkenca e të dhënave merret me probleme të botës reale, matricat në shkencën e të dhënave duhet të jenë reale dhe simetrike. Ka disa përjashtime nga kjo. Në modelet e avancuara të shkencës së të dhënave si përpunimi i imazhit, analiza Fourier përdoret shumë. Prandaj mund të hasim lehtësisht matrica që përcaktohen në hapësirën e numrave kompleksë. Përveç kësaj, për shumicën e problemeve bazë të shkencës së të dhënave dhe të mësimit të makinerive, matricat e hasura janë gjithmonë reale dhe simetrike.
Në këtë artikull, ne do të shqyrtojmë tre shembuj të modeleve të matricës reale dhe simetrike që i hasim shpesh në shkencën e të dhënave dhe mësimin e makinerisë, domethënë, matricën e regresionit (R); matrica e kovariancës dhe matrica e analizës diskriminuese lineare (L).
Shembulli 1: Matrica e regresionit linear
Supozoni se kemi një grup të dhënash që ka 4 veçori parashikuese dhe n vëzhgime siç tregohet më poshtë.
Ne dëshirojmë të ndërtojmë një model me shumë regresion për parashikimin e vlerave y (kolona 5). Kështu, modeli ynë mund të shprehet në formë
Në formën e matricës, ky ekuacion mund të shkruhet si
ku X është matrica e veçorive ( n x 4), w është matrica (4 x 1) që përfaqëson koeficientët e regresionit që do të përcaktohen dhe y > është matrica (n x 1) që përmban n vëzhgime të ndryshores së synuar y.
Vini re se X është një matricë drejtkëndëshe, kështu që nuk mund ta zgjidhim ekuacionin e mësipërm duke marrë inversin e X.
Për të kthyer X në një matricë katrore, ne shumëzojmë anën e majtë dhe të djathtë të ekuacionit tonë me transpozimin të X, kjo eshte
Ky ekuacion mund të shprehet edhe si
ku
është matrica e regresionit (4 x 4). Në mënyrë të qartë, ne vërejmë se R është një matricë reale dhe simetrike. Vini re se në algjebër lineare, transpozimi i produktit të dy matricave i bindet marrëdhënies së mëposhtme
Tani që e kemi reduktuar problemin tonë të regresionit dhe e kemi shprehur atë në termat e matricës së regresionit (4x4) real, simetrik dhe të kthyeshëm R, është e thjeshtë të tregojmë se zgjidhja e saktë e ekuacionit të regresionit është pastaj
Shembulli 2: Matrica e Kovariancës
Supozoni se kemi një matricë karakteristikash shumë të ndërlidhura me 4 veçori dhe nvëzhgim siç tregohet në Tabela 2më poshtë:
Për të vizualizuar korrelacionet midis veçorive, ne mund të gjenerojmë një grafik shpërndarjeje. Për të përcaktuar shkallën e korrelacionit midis veçorive (multikolineariteti), ne mund të llogarisim matricën e kovariancës duke përdorur këtë ekuacion:
Në formën e matricës, matrica e kovariancës mund të shprehet si një matricë reale dhe simetrike 4 x 4:
Përsëri, ne shohim se matrica kovariante është reale dhe simetrike. Kjo matricë mund të diagonalizohet duke kryer një transformim unitar, i referuar gjithashtu si transformim i Analizës së Komponentit Kryesor (PCA) për të marrë sa vijon:
Meqenëse gjurma e një matrice mbetet e pandryshueshme nën një transformim unitar, vërejmë se shuma e vlerave vetjake të matricës diagonale është e barabartë me variancën totale të përfshirë në tiparet X1, X2, X3 dhe X4.
Shembulli 3: Matrica e Analizës Diskriminuese Lineare
Një shembull tjetër i një matrice reale dhe simetrike në shkencën e të dhënave është matrica e Analizës Diskriminuese Lineare (LDA). Kjo matricë mund të shprehet në formë
ku S_W është matrica e shpërndarjes brenda veçorive dhe S_Bështë matrica e shpërndarjes ndërmjet veçorive. Meqenëse të dyja matricat S_WdheS_Bjanë reale dhe simetrike, rrjedh se L është gjithashtu reale dhe simetrike. Diagonalizimi i L prodhon një nënhapësirë të veçorive që optimizon ndarjen e klasave dhe redukton dimensionalitetin. Prandaj LDA është një algoritëm i mbikëqyrur, ndërsa PCA jo.
Për më shumë detaje rreth zbatimit të LDA, ju lutemi shikoni referencat e mëposhtme:
"Mësimi i makinerisë: Reduktimi i dimensioneve përmes analizës lineare diskriminuese"
"Depoja e GitHub për zbatimin e LDA duke përdorur të dhënat e Iris"
"Mësimi i Makinerisë Python nga Sebastian Raschka, Botimi i 3-të (Kapitulli 5)"
Përmbledhje
Në përmbledhje, ne kemi diskutuar tre shembuj të matricave reale dhe simetrike në shkencën e të dhënave dhe mësimin e makinerive, domethënë, matricën e regresionit (R); matrica e kovariancës dhe matrica e analizës diskriminuese lineare (L). Për shkak se shkenca e të dhënave merret me probleme të botës reale, matricat në shkencën e të dhënave duhet të jenë reale dhe simetrike.
Burimet shtesë të shkencës së të dhënave/makinerisë
"Sa matematikë më nevojitet në shkencën e të dhënave?"
"Kurrikula e shkencës së të dhënave"
"5 Diplomat më të mira për të hyrë në shkencën e të dhënave"
"Bazat teorike të shkencës së të dhënave - A duhet të kujdesem apo thjesht të fokusohem në aftësitë praktike?"
"Planifikimi i projektit të mësimit të makinës"
"Si të organizoni projektin tuaj të shkencës së të dhënave"
"Mjetet e produktivitetit për projektet e shkencës së të dhënave në shkallë të gjerë"
"Një portofol i shkencës së të dhënave është më i vlefshëm se një rezyme"
Për pyetje dhe pyetje, ju lutemi më dërgoni email: [email protected]