Temat A-Z mbi Mësimin e Makinerisë

Saktësia

Në mësimin e makinerive, saktësia është një metrikë e përdorur zakonisht për të vlerësuar performancën e një modeli. Saktësia e një modeli përcaktohet si raporti i etiketave (ose rezultateve) të parashikuara saktë mbi numrin total të parashikimeve të bëra.

Për shembull, nëse kemi një problem klasifikimi binar me 100 vëzhgime dhe modeli ynë është në gjendje të klasifikojë saktë 80 prej tyre, atëherë saktësia e modelit është 80%.

Saktësia është një metrikë e thjeshtë dhe intuitive që mund të interpretohet lehtësisht. Megjithatë, ajo ka disa kufizime që duhet të merren parasysh.

Një nga kufizimet e saktësisë është se supozon se të gjitha gabimet janë të barabarta. Në realitet, disa gabime mund të jenë më të kushtueshme ose më të rëndësishme se të tjerat. Për shembull, në një detyrë diagnostikimi mjekësor, një negativ i rremë (d.m.th., klasifikimi i një pacienti të sëmurë si të shëndetshëm) mund të jetë më serioz se një pozitiv i rremë (d.m.th., klasifikimi i një pacienti të shëndetshëm si të sëmurë). Prandaj, saktësia mund të mos jetë metrika më e mirë për t'u përdorur në raste të tilla dhe metrika të tjera si saktësia, rikujtimi ose rezultati F1 mund të jenë më të përshtatshme.

Një kufizim tjetër i saktësisë është se mund të mos jetë një matës i mirë i performancës së modelit kur grupi i të dhënave është i çekuilibruar, d.m.th., kur numri i vëzhgimeve në secilën klasë nuk është i barabartë. Në raste të tilla, një model që gjithmonë parashikon klasën e shumicës mund të arrijë një saktësi të lartë, edhe pse në fakt nuk po performon mirë në klasën e pakicës. Për të adresuar këtë çështje, metrikë të tjerë si AUC-ROC ose kurbat e rikujtimit të saktë mund të përdoren për të vlerësuar performancën e modelit.

Për më tepër, saktësia nuk merr parasysh koston e keqklasifikimit. Për shembull, në një detyrë për zbulimin e mashtrimit, kostoja e një negativi të rremë (d.m.th., moszbulimi i një transaksioni mashtrues) mund të jetë shumë më i lartë se kostoja e një pozitive false (d.m.th., shënimi i një transaksioni legjitim si mashtrues). Në raste të tilla, teknikat e të mësuarit të ndjeshme ndaj kostos mund të përdoren për të rregulluar pragun e klasifikimit dhe për të minimizuar koston e përgjithshme.

Në përmbledhje, saktësia është një metrikë e thjeshtë dhe e dobishme për të vlerësuar performancën e një modeli, por ajo duhet të përdoret në lidhje me metrikat e tjera dhe duke marrë parasysh kontekstin specifik të problemit.

Preciziteti

Në mësimin e makinerive, saktësia është një metrikë e përdorur zakonisht për të vlerësuar performancën e një modeli klasifikimi. Saktësia përcaktohet si raporti i pozitivëve të vërtetë (TP) mbi numrin total të pozitivëve të parashikuar (TP + pozitivë të rremë ose FP).

Matematikisht, saktësia mund të përfaqësohet si:

precizion = TP / (TP + FP)

Paktësia mat se sa mirë një model parashikon klasën pozitive dhe shmang pozitivët e rremë. Një vlerë e lartë saktësie tregon se modeli po bën disa parashikime false pozitive dhe ka një shkallë të ulët të alarmeve të rreme.

Për shembull, në një detyrë diagnostikimi mjekësor, saktësia do të masë përqindjen e pacientëve që janë vërtet të sëmurë midis atyre që ishin parashikuar si të sëmurë nga modeli. Një vlerë e lartë saktësie do të tregonte se modeli po identifikon saktë shumicën e pacientëve të sëmurë dhe nuk po bën shumë diagnoza të rreme.

Megjithatë, vetëm saktësia e lartë nuk garanton performancë të mirë të modelit. Është e mundur të arrihet saktësi e lartë thjesht duke parashikuar vetëm rastet më të sigurta si pozitive, gjë që mund të rezultojë në një rikujtim të ulët (d.m.th., proporcioni i pozitivëve të vërtetë mbi numrin total të pozitivëve aktualë). Një model i mirë duhet të synojë të balancojë saktësinë dhe kujtesën për të arritur saktësi të lartë të përgjithshme.

Saktësia është veçanërisht e rëndësishme në detyrat ku pozitivet false janë më të kushtueshme se ato false negative. Për shembull, në filtrimin e postës së padëshiruar, një pozitiv i rremë (d.m.th., klasifikimi i një emaili të ligjshëm si mesazh i padëshiruar) mund të rezultojë në humbjen e mesazheve të rëndësishme të padëshiruara. informacion, ndërsa një negativ i rremë (d.m.th., moszbulimi i një emaili të padëshiruar) mund të jetë më pak kritik. Prandaj, një model që arrin saktësi të lartë në këtë kontekst do të ishte i preferueshëm.

Në përmbledhje, saktësia është një metrikë e dobishme për të vlerësuar performancën e një modeli klasifikimi, veçanërisht në situatat kur pozitivet e rreme janë më të kushtueshme sesa negativet e rreme. Megjithatë, ai duhet të përdoret së bashku me metrikë të tjerë si rikujtimi, rezultati F1 ose saktësia për të arritur një vlerësim të përgjithshëm të performancës së modelit.

Kujtoni

Në mësimin e makinerive, rikujtimi është një metrikë e përdorur zakonisht për të vlerësuar performancën e një modeli klasifikimi. Recallja përcaktohet si raporti i pozitivëve të vërtetë (TP) mbi numrin total të pozitivëve aktualë (TP + negativë të rremë ose FN).

Matematikisht, rikujtimi mund të përfaqësohet si:

kujtesa = TP / (TP + FN)

Kujtoni mat se sa mirë një model është në gjendje të identifikojë saktë rastet pozitive. Një vlerë e lartë e tërheqjes tregon se modeli është në gjendje të identifikojë shumicën e rasteve pozitive dhe ka një shkallë të ulët të negativëve të rremë.

Për shembull, në një detyrë diagnostikimi mjekësor, kujtimi do të masë përqindjen e pacientëve me të vërtetë të sëmurë që u diagnostikuan saktë nga modeli. Një vlerë e lartë e tërheqjes do të tregonte se modeli po identifikon saktë shumicën e pacientëve të sëmurë dhe nuk mungojnë shumë raste pozitive.

Megjithatë, vetëm tërheqja e lartë nuk garanton performancë të mirë të modelit. Është e mundur të arrihet një rikujtim i lartë thjesht duke parashikuar të gjitha rastet si pozitive, gjë që mund të rezultojë në një shkallë të lartë të pozitivëve fals dhe një saktësi të ulët. Një model i mirë duhet të synojë të balancojë saktësinë dhe kujtesën për të arritur saktësi të lartë të përgjithshme.

Kujtesa është veçanërisht e rëndësishme në detyrat ku negativët e rremë janë më të kushtueshëm sesa pozitivët e rremë. Për shembull, në diagnostikimin e kancerit, një negativ i rremë (d.m.th., moszbulimi i një tumori kanceroz) mund të ketë pasoja të rënda, ndërsa një fals pozitive (d.m.th., zbulimi i një tumori beninj si kanceroz) mund të jetë më pak kritik. Prandaj, një model që arrin kujtesë të lartë në këtë kontekst do të ishte i preferueshëm.

Si përmbledhje, rikujtimi është një metrikë e dobishme për të vlerësuar performancën e një modeli klasifikimi, veçanërisht në situatat kur negativët e rremë janë më të kushtueshëm se sa pozitivët e rremë. Megjithatë, ai duhet të përdoret së bashku me metrikë të tjerë si p.sh. saktësi, rezultati F1 ose saktësi për të arritur një vlerësim të përgjithshëm të performancës së modelit.

Kurba AUC/ROC

Në mësimin e makinerive, kurba e karakteristikës së funksionimit të marrësit (ROC) është një paraqitje grafike e performancës së një modeli klasifikimi binar në pragje të ndryshme klasifikimi. Kurba ROC paraqet normën e vërtetë pozitive (TPR) kundrejt normës false pozitive (FPR) për vlera të ndryshme të pragut. Sipërfaqja nën lakoren ROC (AUC) është një metrikë e përdorur zakonisht për të vlerësuar. performanca e një modeli klasifikimi binar.

Norma e vërtetë pozitive (TPR) njihet gjithashtu si ndjeshmëri ose rikujtim dhe përcaktohet si përqindja e rasteve pozitive që identifikohen saktë nga modeli. Matematikisht, TPR mund të përfaqësohet si:

TPR = TP / (TP + FN)

Norma false pozitive (FPR) përcaktohet si përqindja e rasteve negative që janë klasifikuar gabimisht si pozitive nga modeli. Matematikisht, FPR mund të përfaqësohet si:

FPR = FP / (FP + TN)

Aty ku TP është pozitiv i vërtetë, FN është negativ i rremë, FP është pozitiv i rremë dhe TN është negativ i vërtetë.

Kurba ROC krijohet duke vizatuar TPR kundrejt FPR në vlera të ndryshme pragu. Pragu përfaqëson vlerën e probabilitetit mbi të cilën një shembull klasifikohet si pozitiv dhe nën të cilin ai klasifikohet si negativ.Korba ROC ndihmon në vizualizimin e shkëmbimit ndërmjet TPR dhe FPR për vlera të ndryshme të pragut.

AUC është zona nën kurbën ROC dhe është një masë e performancës së përgjithshme të modelit. Një model me një vlerë të lartë AUC tregon se është në gjendje të dallojë midis rasteve pozitive dhe negative me saktësi të lartë.Një model me një AUC prej 0.5 konsiderohet si hamendje e rastësishme, ndërsa një model me një AUC prej 1.0 është i përsosur .

Vlera AUC varion nga 0 në 1, me vlera më të larta që tregojnë performancë më të mirë. Vlerat AUC midis 0,7 dhe 0,8 konsiderohen si të pranueshme, ndërsa vlerat midis 0,8 dhe 0,9 konsiderohen si të mira. Vlerat mbi 0.9 konsiderohen si të shkëlqyera.

AUC është një metrikë e dobishme për të vlerësuar performancën e modeleve të klasifikimit binar, veçanërisht kur klasat janë të çekuilibruara. Ai siguron një pikë të vetme që përmbledh performancën e përgjithshme të modelit përgjatë vlerave të ndryshme të pragut, duke e bërë të lehtë krahasimin e modeleve të ndryshme. Megjithatë, ai duhet të përdoret së bashku me metrikë të tjerë si saktësia, rikujtimi dhe saktësia për të arritur një vlerësim të përgjithshëm të performancës së modelit.

Norma e vërtetë pozitive

Norma e vërtetë pozitive (TPR), e njohur gjithashtu si ndjeshmëri ose rikujtim, është një metrikë që përdoret për të vlerësuar performancën e një modeli klasifikimi binar. TPR mat proporcionin e rasteve pozitive që janë identifikuar saktë si pozitive nga modeli.

Matematikisht, TPR mund të përfaqësohet si:

TPR = TP / (TP + FN)

Ku TP është numri i pozitivëve të vërtetë (d.m.th., numri i rasteve pozitive të klasifikuara saktë nga modeli), dhe FN është numri i negativëve të rremë (d.m.th., numri i rasteve pozitive të klasifikuara gabimisht si negative nga modeli).

Një TPR e lartë tregon se modeli është në gjendje të identifikojë saktë shumicën e rasteve pozitive dhe ka një shkallë të ulët të negativëve të rremë. Nga ana tjetër, një TPR e ulët tregon se modelit i mungojnë shumë raste pozitive dhe ka një shkallë të lartë të negativëve të rremë.

TPR është veçanërisht e rëndësishme në aplikimet ku identifikimi i saktë i rasteve pozitive është kritik, si diagnoza mjekësore, zbulimi i mashtrimit ose zbulimi i anomalive. Në këto aplikacione, një TPR e lartë preferohet edhe nëse vjen me koston e një norme më të lartë false pozitive (FPR).

Për shembull, në diagnozën e kancerit, një TPR e lartë do të tregonte se modeli po identifikon saktë shumicën e tumoreve kancerogjene, edhe nëse rezulton në një shkallë më të lartë të rezultateve false (d.m.th., zbulimin e disa tumoreve beninje si kanceroze). Kjo ndodh sepse mungesa e një tumori kanceroz (d.m.th., negativ i rremë) mund të ketë pasoja serioze, ndërsa zbulimi i një tumori beninj si kanceroz (d.m.th., pozitiv i rremë) mund të jetë më pak kritik.

Si përmbledhje, TPR është një metrikë e dobishme për të vlerësuar performancën e një modeli klasifikimi binar, veçanërisht në aplikacionet ku identifikimi i saktë i rasteve pozitive është kritik. Duhet të përdoret së bashku me metrikë të tjerë si saktësia, FPR. , AUC ose saktësi për të arritur një vlerësim të përgjithshëm të performancës së modelit.

Norma false pozitive

Norma false pozitive (FPR) është një metrikë e përdorur për të vlerësuar performancën e një modeli klasifikimi binar. FPR mat përqindjen e rasteve negative që janë klasifikuar gabimisht si pozitive nga modeli.

Matematikisht, FPR mund të përfaqësohet si:

FPR = FP / (FP + TN)

Ku FP është numri i pozitivëve të rremë (d.m.th., numri i rasteve negative të klasifikuara gabimisht si pozitive nga modeli), dhe TN është numri i negativëve të vërtetë (d.m.th., numri i rasteve negative të klasifikuara saktë si negative nga modeli).

Një FPR e lartë tregon se modeli po klasifikon gabimisht shumë raste negative si pozitive dhe ka një specifikë të ulët. Nga ana tjetër, një FPR e ulët tregon se modeli po identifikon saktë shumicën e rasteve negative dhe ka një specifikë të lartë.

FPR është veçanërisht i rëndësishëm në aplikacionet ku identifikimi i saktë i rasteve negative është kritik, si zbulimi i spamit, vlerësimi i rrezikut të kredisë ose zbulimi i ndërhyrjeve. Në këto aplikacione, një FPR e ulët preferohet edhe nëse vjen me koston e një norme më të ulët të vërtetë pozitive (TPR).

Për shembull, në zbulimin e postës së padëshiruar, një FPR e ulët do të tregonte se modeli po klasifikon saktë shumicën e emaileve jo të padëshiruara si negative, edhe nëse rezulton në humbjen e disa emaileve të padëshiruara (d.m.th., negative të rreme). Kjo është për shkak se klasifikimi i një emaili të ligjshëm si spam (d.m.th., pozitiv i rremë) mund të rezultojë në humbjen e mesazheve të rëndësishme, ndërsa mungesa e disa emaileve të padëshiruara mund të jetë më pak kritike.

Si përmbledhje, FPR është një metrikë e dobishme për të vlerësuar performancën e një modeli klasifikimi binar, veçanërisht në aplikacionet ku identifikimi i saktë i rasteve negative është kritik. Duhet të përdoret së bashku me metrikë të tjerë si TPR, saktësia. , AUC ose saktësi për të arritur një vlerësim të përgjithshëm të performancës së modelit.

Matrica e konfuzionit

Një matricë konfuzioni është një tabelë e përdorur për të vlerësuar performancën e një modeli të mësimit të makinës për problemet e klasifikimit binar. Ai ofron një përmbledhje të parashikimeve të bëra nga modeli dhe të rezultateve aktuale në një format tabelor, duke mundësuar një analizë të detajuar të performancës së modelit.

Një matricë konfuzioni ka katër rezultate të mundshme, të njohura gjithashtu si katër metrikat themelore:

  1. Pozitivët e Vërtetë (TP): Numri i rasteve pozitive që janë klasifikuar saktë nga modeli.
  2. False Pozitive (FP): Numri i rasteve negative që janë klasifikuar gabimisht si pozitive nga modeli.
  3. Negativët e vërtetë (TN): Numri i rasteve negative që janë klasifikuar saktë nga modeli.
  4. False Negatives (FN): Numri i rasteve pozitive që janë klasifikuar gabimisht si negative nga modeli.

Matrica e konfuzionit është rregulluar si më poshtë:

Nga matrica e konfuzionit, ne mund të llogarisim disa metrikë për të vlerësuar performancën e modelit, duke përfshirë saktësinë, saktësinë, rikujtimin, rezultatin F1, shkallën e vërtetë pozitive, shkallën false pozitive dhe zonën nën kurbën ROC (AUC ROC).

Këtu janë disa shembuj se si të llogariten këto metrikë duke përdorur vlerat nga matrica e konfuzionit:

Saktësia: (TP + TN) / (TP + FP + TN + FN)

Saktësia: TP / (TP + FP)

Recall (ose Ndjeshmëria ose TPR): TP / (TP + FN)

Rezultati F1: 2 * (Precision * Recall) / (Precision + Recall)

Norma false pozitive (FPR): FP / (FP + TN)

Norma e vërtetë negative (TNR): TN / (FP + TN)

Zona nën lakoren ROC (AUC ROC): AUC ROC është një grafik i TPR (boshti y) kundrejt FPR (boshti x) për pragje të ndryshme klasifikimi dhe mund të llogaritet duke përdorur një sërë teknikash, si p.sh. rregulli trapezoid ose testi Mann-Whitney U.

Në përgjithësi, matrica e konfuzionit është një mjet i fuqishëm për vlerësimin e performancës së një modeli të mësimit të makinerive dhe ofron një përmbledhje të detajuar të pikave të forta dhe të dobëta të tij. Duke analizuar matricën e konfuzionit, ne mund të identifikojmë fushat ku modeli mund të përmirësohet dhe të marrim vendime më të mira bazuar në parashikimet e modelit.

Rezultati në F1

Rezultati F1 është një metrikë që përdoret zakonisht në mësimin e makinerive për vlerësimin e performancës së një modeli klasifikimi binar. Është mesatarja harmonike e saktësisë dhe rikujtimit dhe siguron një masë të ekuilibruar të performancës së modelit.

Saktësia mat proporcionin e parashikimeve të vërteta pozitive nga të gjitha parashikimet pozitive të bëra nga modeli. Përkufizohet si:

Saktësia = TP / (TP + FP)

ku TP është numri i parashikimeve të vërteta pozitive dhe FP është numri i parashikimeve false pozitive.

Tërheqja, e njohur gjithashtu si ndjeshmëria ose norma e vërtetë pozitive, mat përqindjen e parashikimeve të vërteta pozitive nga të gjitha rastet aktuale pozitive në grupin e të dhënave. Ajo përkufizohet si:

Recall = TP / (TP + FN)

ku FN është numri i parashikimeve të rreme negative.

Rezultati F1 përkufizohet si mesatarja harmonike e saktësisë dhe rikujtimit, dhe llogaritet si:

Rezultati F1 = 2 * (Precision * Recall) / (Precision + Recall)

Rezultati F1 varion midis 0 dhe 1, me 1 që tregon saktësi dhe rikthim të përsosur, dhe 0 tregon performancë të dobët.

Rezultati F1 është veçanërisht i dobishëm në situatat kur saktësia dhe rikujtimi janë të rëndësishme dhe kostoja e rezultateve false dhe negative është afërsisht e barabartë. Për shembull, në zbulimin e mashtrimit, si saktësia ashtu edhe tërheqja janë të rëndësishme për të identifikuar sa më shumë transaksione mashtruese duke minimizuar akuzat e rreme. Në raste të tilla, rezultati F1 është një tregues i mirë i performancës së përgjithshme të modelit.

Megjithatë, në disa situata, saktësia dhe kujtimi mund të jenë të një rëndësie të pabarabartë dhe rezultati F1 mund të mos jetë metrika më e mirë për t'u përdorur. Për shembull, në diagnozën e kancerit, kujtimi është më i rëndësishëm se sa saktësia, pasi është thelbësore të zbulohen sa më shumë raste të kancerit të jetë e mundur, edhe nëse rezulton në disa rezultate false.

Në përmbledhje, rezultati F1 është një metrikë e dobishme për të vlerësuar performancën e modeleve të klasifikimit binar, veçanërisht kur saktësia dhe rikujtimi janë të rëndësishme, dhe kostoja e pozitivëve të rremë dhe negativëve të rremë është afërsisht e barabartë. Duhet të përdoret së bashku me metrikë të tjerë si saktësia, AUC ROC, saktësia dhe rikujtimi për të arritur një vlerësim gjithëpërfshirës të performancës së modelit.

Bënia dhe rritja

Bagging dhe rritja janë dy teknika të njohura të mësimit të ansamblit në mësimin e makinës që përdoren për të përmirësuar saktësinë dhe qëndrueshmërinë e modeleve parashikuese.

Bagging (Bootstrap Aggregating) është një teknikë e të mësuarit të grupit ku modele të shumta trajnohen në nënbashkësi të ndryshme të të dhënave të trajnimit duke përdorur kampionimin e bootstrap (kampionimi me zëvendësim). Parashikimet e këtyre modeleve më pas kombinohen duke përdorur mesataren (për regresion) ose votimin e shumicës (për klasifikimin) për të prodhuar një parashikim përfundimtar. Bagging mund të ndihmojë në reduktimin e variancës së modelit dhe parandalimin e përshtatjes së tepërt, pasi çdo model është trajnuar në një nëngrup të ndryshëm të të dhënave.

Pylli i rastësishëm është një shembull popullor i një algoritmi grumbullimi, ku pemët e vendimit trajnohen në nëngrupe të ndryshme të të dhënave të trajnimit dhe parashikimi përfundimtar bëhet duke mesataren e parashikimeve të të gjitha pemëve.

Rritja, nga ana tjetër, është një teknikë e të mësuarit të grupit ku shumë modele trajnohen në mënyrë sekuenciale, me secilin model të trajnuar për të korrigjuar gabimet e modelit të mëparshëm. Ndryshe nga bagazhi, forc>boosting fokusohet në reduktimin e paragjykimit të modelit, duke trajnuar modele të dobëta (modele me fuqi të ulët parashikuese) në një mënyrë që parashikimet e tyre kolektive të bëhen më të sakta. Përforcimi mund të ndihmojë në përmirësimin e saktësisë së modelit dhe të reduktojë paragjykimet dhe variancën.

AdaBoost (Adaptive Boosting) dhe Gradient Boosting janë shembuj të njohur të algoritmeve të rritjes. AdaBoost funksionon duke i dhënë më shumë peshë pikave të të dhënave të keqklasifikuara në grupin e trajnimit, duke i detyruar modelet pasuese të fokusohen më shumë në pikat e të dhënave të vështira për t'u klasifikuar. Rritja e gradientit funksionon duke shtuar në mënyrë të përsëritur pemët e vendimit që fokusohen në mbetjet (gabimet) e modelit të mëparshëm, duke e lejuar modelin të korrigjojë gabimet e tij dhe të bëjë parashikime më të sakta.

Si përmbledhje, grumbullimi dhe rritja janë dy teknika të njohura të të mësuarit të ansamblit në mësimin e makinerive që mund të ndihmojnë në përmirësimin e saktësisë dhe qëndrueshmërisë së modeleve parashikuese. Bagging fokusohet në reduktimin e variancës dhe parandalimin e përshtatjes së tepërt, ndërsa rritja fokusohet në reduktimin e paragjykimeve dhe përmirësimin e saktësisë. Duke kombinuar parashikimet e modeleve të shumta, si grumbullimi ashtu edhe rritja mund të ndihmojnë në përmirësimin e performancës së përgjithshme të modelit dhe të ofrojnë parashikime më të forta dhe të sakta.

Nënpërshtatja dhe mbipërshtatja

Mospërshtatja dhe përshtatja e tepërt janë dy probleme të zakonshme që mund të ndodhin kur trajnoni një model të mësimit të makinës.

Nënpërshtatja ndodh kur një model është shumë i thjeshtë për të kapur modelet themelore në të dhëna. Kjo mund të ndodhë kur modeli është shumë i kufizuar, veçoritë nuk janë mjaft informuese ose modeli nuk është trajnuar për një kohë të gjatë. Një model i dobët do të ketë performancë të dobët si në të dhënat e trajnimit ashtu edhe në të dhënat e testimit. , dhe do të përgjithësohet dobët për të dhënat e reja. Me fjalë të tjera, modeli është shumë i thjeshtë dhe nuk mund të kapë kompleksitetin e të dhënave.

Mbipërshtatja ndodh kur një model është shumë kompleks dhe kap zhurmë ose modele të parëndësishme në të dhëna. Kjo mund të ndodhëkur modeli është shumë fleksibël, veçoritë janë shumë komplekse ose kur modeli është trajnuar për një kohë të gjatë. Një model i mbipërshtatjes do të performojë shumë mirë në të dhënat e trajnimit, por do të ketë performancë të dobët në të dhënat e testimit dhe do të përgjithësohet dobët në të dhënat e reja. Me fjalë të tjera, modeli është shumë kompleks dhe i përshtatet shumë mirë të dhënave të trajnimit, por nuk arrin të përgjithësohet me të dhëna të reja.

Ka disa mënyra për të zbuluar dhe parandaluar mospërshtatjen dhe mbipërshtatjen:

  • Vërtetimi i kryqëzuar: Përdorimi i verifikimit të kryqëzuar mund të ndihmojë në zbulimin e mospërshtatjes dhe të mbipërshtatjes duke vlerësuar performancën e modelit në palosjet e shumta të të dhënave.
  • Rregullimi: Rregullimi është një teknikë e përdorur për të parandaluar mbipërshtatjen duke shtuar një term penaliteti në funksionin e humbjes, gjë që e dekurajon modelin të përshtatë shumë afër të dhënat e trajnimit.
  • Zgjedhja e veçorive: Përzgjedhja e veçorive informative dhe heqja e veçorive të parëndësishme mund të ndihmojë në parandalimin e përshtatjes së tepërt.
  • Ndalimi i hershëm: Ndalimi i hershëm i procesit të trajnimit mund të parandalojë mbipërshtatjen, pasi modeli do të ketë më pak gjasa të përshtatet me zhurmën në të dhënat e stërvitjes.
  • Thjeshtësia e modelit: Zgjedhja e një arkitekture më të thjeshtë modeli mund të parandalojë përshtatjen e tepërt, pasi modeli do të ketë më pak gjasa të kapë modele të parëndësishme në të dhëna.

Në përmbledhje, mospërshtatja dhe mbipërshtatja janë dy probleme të zakonshme që mund të ndodhin kur trajnoni një model të mësimit të makinerive. Nënpërshtatja ndodh kur modeli është shumë i thjeshtë për të kapur modelet themelore në të dhëna, ndërsa mbipërshtatja ndodh kur modeli është shumë kompleks dhe kap zhurmë ose modele të parëndësishme në të dhëna. Zbulimi dhe parandalimi i mospërshtatjes dhe mbipërshtatjes mund të arrihet nëpërmjet verifikimit të kryqëzuar, rregullimit, përzgjedhjes së veçorive, ndalimit të hershëm dhe thjeshtësisë së modelit.

Kompensimi paragjykim-variancë

Kombinimi i paragjykimit-variancës është një koncept themelor në mësimin e makinerive që i referohet kompromisit midis aftësisë së një modeli për t'i përshtatur mirë të dhënat e trajnimit (paragjykim i ulët) dhe aftësisë së tij për të përgjithësuar në të dhëna të reja, të padukshme (variancë e ulët) .

Paragjykimi i referohet ndryshimit midis vlerës së pritur të parashikimeve të modelit dhe vlerës së vërtetë të ndryshores së synuar. Një model me paragjykim të lartë nuk do të përputhet me të dhënat, që do të thotë se do të dështojë të kapë modelet themelore dhe do të ketë performancë të dobët si në të dhënat e trajnimit ashtu edhe në të dhënat e testimit.

Varianca, nga ana tjetër, i referohet ndryshueshmërisë së parashikimeve të modelit për raste të ndryshme të të dhënave të trajnimit. Një model me variancë të lartë do t'i përshtatet më shumë të dhënave, që do të thotë se do t'i përshtatet shumë afër të dhënave të trajnimit dhe do të ketë performancë të lartë në të dhënat e stërvitjes, por performancë të dobët në të dhënat e testimit.

Qëllimi i mësimit të makinerive është gjetja e një modeli që ka paragjykim të ulët dhe variancë të ulët. Megjithatë, në praktikë, ulja e njërit prej këtyre faktorëve shpesh çon në një rritje të tjetrit. Kjo njihet si kompensimi i paragjykimit-variancë.

Për të gjetur kompensimin optimal midis paragjykimit dhe variancës, është e rëndësishme të vlerësohet performanca e modelit si në të dhënat e trajnimit ashtu edhe në të dhënat e testit. Nëse modeli ka paragjykim të lartë dhe variancë të ulët, atëherë mund të jetë e nevojshme të rritet kompleksiteti i modelit, të shtohen më shumë veçori ose të përdoret një algoritëm më fleksibël. Nga ana tjetër, nëse modeli ka paragjykim të ulët dhe variancë të lartë, atëherë mund të jetë e nevojshme të zvogëlohet kompleksiteti i modelit, të përdoren teknikat e rregullimit ose të mblidhen më shumë të dhëna.

Në përmbledhje, shkëmbimi i paragjykimit-variancë është një koncept themelor në mësimin e makinerisë që i referohet kompromisit midis aftësisë së një modeli për t'i përshtatur mirë të dhënat e trajnimit (paragjykim i ulët) dhe aftësisë së tij për të përgjithësuar në të dhëna të reja, të padukshme (variancë e ulët). . Gjetja e kompromisit optimal midis paragjykimit dhe variancës kërkon vlerësimin e performancës së modelit si në të dhënat e trajnimit ashtu edhe në të dhënat e testit dhe rregullimin e kompleksitetit të modelit, veçorive ose algoritmit në përputhje me rrethanat.

Mësimi i makinerisë i mbikëqyrur dhe i pambikëqyrur

Mësimi i makinerisë i mbikëqyrur dhe i pambikëqyrur janë dy kategori kryesore të teknikave të mësimit të makinerive të përdorura për të ndërtuar modele parashikuese dhe për të nxjerrë njohuri nga të dhënat.

Mësimi i mbikëqyrur përfshin trajnimin e një modeli në një grup të dhënash të etiketuar, ku veçoritë hyrëse dhe etiketat e tyre përkatëse të synuara janë të njohura. Qëllimi i mësimit të mbikqyrur është të mësojë një funksion të hartës nga veçoritë hyrëse te etiketat e synuara, të cilat më pas mund të përdoren për të bërë parashikime mbi të dhëna të reja, të padukshme. Shembuj të algoritmeve të të mësuarit të mbikëqyrur përfshijnë fortë>regresioni linear, pemët e vendimeve dhe rrjetet nervore.

Nga ana tjetër, mësimi i pambikëqyrur përfshin trajnimin e një modeli në një grup të dhënash të paetiketuar, ku dihen vetëm veçoritë hyrëse. Qëllimi i të mësuarit të pambikëqyrur është tëidentifikojë modelet dhe strukturat në të dhëna pa përdorimi i çdo etiketimi të synuar të paracaktuar. Shembuj të algoritmeve të mësimit të pambikëqyrur përfshijnë grupimin, zvogëlimin e dimensioneve dhe nxjerrjen e rregullave të shoqërimit.

Në përmbledhje, mësimi i mbikëqyrur është i dobishëm kur kemi të dhëna të etiketuara dhe duam të ndërtojmë një model që mund të bëjë parashikime të sakta për të dhënat e reja. Mësimi i pambikëqyrur është i dobishëm kur duam të zbulojmë struktura dhe marrëdhënie të fshehura në të dhënat tona pa ndonjë etiketë të synuar të paracaktuar.

Reduktimi i dimensioneve

Reduktimi i dimensioneve është një teknikë e përdorur në mësimin e makinerive për të ulur numrin e veçorive të hyrjes në një grup të dhënash duke ruajtur informacionin më të rëndësishëm. Qëllimi i reduktimit të dimensionalitetit është të thjeshtojë grupin e të dhënave, duke e bërë më të lehtë analizimin dhe vizualizimin, si dhe përmirësimin e performancës së algoritmeve të mësimit të makinerive duke ulur mbipërshtatjen dhe duke rritur efikasitetin llogaritës.

Ekzistojnë dy lloje kryesore të teknikave të reduktimit të dimensioneve:

  1. Zgjedhja e veçorive: Kjo përfshin zgjedhjen e një nëngrupi të veçorive origjinale në grupin e të dhënave që janë më të rëndësishme për variablin e synuar. Kjo mund të bëhet duke përdorur teknika të tilla si analiza e korrelacionit, informacioni i ndërsjellë dhe eliminimi i veçorive rekursive.
  2. Nxjerrja e veçorive: Kjo përfshin transformimin e veçorive origjinale në një hapësirë ​​me dimensione më të ulëta, duke ruajtur informacionin më të rëndësishëm. Kjo mund të bëhet duke përdorur teknika të tilla si Analiza e Komponentit Kryesor (PCA), t-SNE dhe Autoencoder.

Analiza e komponentit kryesor (PCA)

PCA është një teknikë e përdorur gjerësisht e nxjerrjes së veçorive në të cilën krijohen një grup i ri variablash të pakorreluar (komponentët kryesorë) nga grupi origjinal i variablave. Komponentët kryesorë kapin sasinë maksimale të variancës në të dhënat origjinale dhe numri i komponentëve kryesorë të zgjedhur përcakton nivelin e reduktimit të dimensionalitetit.

Në përgjithësi, reduktimi i dimensionalitetit është një teknikë e rëndësishme në mësimin e makinerive pasi mund të përmirësojë performancën e modelit, të reduktojë përshtatjen e tepërt dhe të ndihmojë në zbulimin e modeleve dhe marrëdhënieve të rëndësishme në të dhënat me dimensione të larta.

Analiza e Komponentit Kryesor (PCA) është një teknikë e pambikëqyrur e përdorur gjerësisht për reduktimin e dimensioneve në mësimin e makinerive. PCA funksionon duke transformuar grupin e të dhënave origjinale në një grup të ri variablash të pakorreluar, të njohur si komponentë kryesorë, të cilët kapin sasinë maksimale të variancës në të dhënat origjinale.

Algoritmi PCA përfshin hapat e mëposhtëm:

  1. Standardizimi i të dhënave: PCA kërkon që të dhënat të standardizohen, që do të thotë se çdo veçori ka zero mesatare dhe variancë njësi. Kjo bëhet për të siguruar që të gjitha veçoritë të kontribuojnë në mënyrë të barabartë në komponentët kryesorë.
  2. Llogaritni matricën e kovariancës: Matrica e kovariancës llogaritet nga të dhënat e standardizuara, të cilat tregojnë se si tiparet lidhen me njëra-tjetrën.
  3. Llogaritni eigenvektorët dhe eigenvalues: Llogariten eigenvektorët dhe eigenvalues ​​të matricës së kovariancës, të cilat përfaqësojnë komponentët kryesorë dhe sasinë e variancës të shpjeguar nga secili komponent kryesor, përkatësisht.
  4. Zgjidhni numrin e komponentëve kryesorë: Numri i përbërësve kryesorë të zgjedhur përcakton nivelin e reduktimit të dimensioneve. Në mënyrë tipike, një prag vendoset për sasinë e variancës së shpjeguar dhe zgjidhen mjaft komponentë kryesorë për të përmbushur atë prag.
  5. Transformoni të dhënat: Të dhënat origjinale transformohen në hapësirën e re të përcaktuar nga komponentët kryesorë.

PCA përdoret zakonisht për vizualizim, pasi mund të zvogëlojë dimensionet e një grupi të dhënash me dimensione të larta në një hapësirë ​​me dimensione më të ulëta (shpesh 2 ose 3 dimensione) për qëllime vizualizimi. Mund të përdoret gjithashtu si një hap parapërpunimi përpara aplikimit të algoritmeve të tjera të mësimit të makinerive, pasi mund të zvogëlojë kompleksitetin llogaritës të grupit të të dhënave dhe të përmirësojë performancën e modelit.

Histogram dhe Boxplot

Histogrami dhe grafiku i kutisë janë dy vizualizime të përdorura zakonisht në analizën e të dhënave dhe statistikat për të përmbledhur shpërndarjen e një grupi të dhënash.

Një histogram është një paraqitje grafike e shpërndarjes së të dhënave numerike. Ai përbëhet nga një seri koshësh që përfaqësojnë intervale vlerash, dhe lartësia e çdo koshi përfaqëson numrin e vëzhgimeve që bien brenda atij intervali. Histogramet janë të dobishme për vizualizimin e formës së një shpërndarjeje, duke përfshirë informacionin mbi qendrën, përhapjen, anshmërinë dhe anët e jashtme.

Një skicë kutie, e njohur gjithashtu si grafiku me kuti dhe mustaqe, është një tjetër vizualizim që përmbledh shpërndarjen e një grupi të dhënash. Ai përbëhet nga një kuti që përfaqëson 50% të mesit të të dhënave, me një vijë në kuti që përfaqëson mesataren. "Mustajat" përfaqësojnë gamën e të dhënave dhe çdo vëzhgim jashtë mustaqeve konsiderohet i jashtëzakonshëm. Grafikët e kutisë janë të dobishme për vizualizimin e përhapjes dhe shtrembërimit të një shpërndarjeje, si dhe për identifikimin e pikave të jashtme të mundshme.

Të dyja, histogramet dhe grafikët e kutisë ofrojnë njohuri të vlefshme për shpërndarjen e një grupi të dhënash dhe mund të ndihmojnë në identifikimin e çështjeve të mundshme si p.sh. anshmëria, anët e jashtme ose bimodaliteti. Ato përdoren zakonisht në analizën e të dhënave eksploruese për të kuptuar karakteristikat e të dhënave përpara se të aplikohen modele statistikore ose algoritme të mësimit të makinerive.

Teorema e kufirit qendror

Teorema e Kufirit Qendror (CLT) është një koncept themelor në statistikat dhe teorinë e probabilitetit që thotë se shpërndarja e mostrës së mesatares së çdo ndryshoreje të rastësishme të pavarur, të shpërndarë në mënyrë identike (iid) i afrohet një shpërndarjeje normale ndërsa madhësia e kampionit rritet, pavarësisht nga forma. të shpërndarjes origjinale. Me fjalë të tjera, nëse merrni një numër të madh mostrash të rastësishme të madhësisë "n" nga çdo popullatë, llogaritni mesataren e çdo kampioni dhe vizatoni shpërndarjen e këtyre mesatareve, ai do të shpërndahet përafërsisht normalisht. >

CLT ka shumë aplikime praktike në statistika, duke përfshirë testimin e hipotezave, vlerësimin e intervalit të besimit dhe vlerësimin e parametrave. Përdoret gjithashtu në fusha të ndryshme si financa, fizika, biologjia dhe inxhinieria.

CLT ka tre supozime kryesore:

  1. Variablat e rastësishëm janë të pavarur dhe të shpërndarë në mënyrë identike.
  2. Madhësia e kampionit është mjaft e madhe (zakonisht n›30) për të siguruar që mesatarja e kampionit të shpërndahet afërsisht normalisht.
  3. Madhësia e kampionit është mjaft e vogël në krahasim me madhësinë e popullatës, në mënyrë që kampionimi të bëhet pa zëvendësim.

CLT është një mjet i fuqishëm në statistika, por është e rëndësishme të kuptohen kufizimet dhe supozimet e tij kur e zbatojmë atë në problemet e botës reale.

Rregullimi

Rregullimi është një teknikë e përdorur në mësimin e makinerive për të parandaluar mbipërshtatjen dhe për të përmirësuar performancën e përgjithësimit të një modeli. Ai përfshin shtimin e një termi penaliteti në funksionin e humbjes së modelit, i cili inkurajon modelin të ketë pesha më të vogla dhe kufijtë më të thjeshtë të vendimit.

Ekzistojnë disa lloje të teknikave të rregullimit të përdorura në mësimin e makinerive, duke përfshirë rregullimin L1, rregullimin L2 dhe rregullimin elastik të rrjetës.

L1 rregullimi, i njohur gjithashtu siRregullimi lasso, shton një term penaliteti në funksionin e humbjes që është në përpjesëtim me vlerën absolute të peshat. Kjo ka efektin e inkurajimit të modelit që të ketë pesha të rralla, të cilat mund të jenë të dobishme në situata ku ka shumë karakteristika të parëndësishme.

rregullimi i L2, i njohur gjithashtu si rregullimi i kreshtës, shton një term penaliteti në funksionin e humbjes që është në përpjesëtim me katrorin e peshave. Kjo ka efektin e inkurajimit të modelit që të ketë pesha më të vogla në përgjithësi, gjë që mund të jetë e dobishme në situata ku të gjitha veçoritë janë potencialisht të rëndësishme.

Rregullimi elastik i rrjetës është një kombinim i rregullimit L1 dhe L2, i cili mund të sigurojë një ekuilibër midis dy teknikave.

Rregullimi mund të aplikohet në një sërë modelesh të mësimit të makinerive, duke përfshirë regresionin linear, regresionin logjistik dhe rrjetet nervore. Është një teknikë e rëndësishme për përmirësimin e performancës së përgjithësimit të modeleve dhe reduktimin e rrezikut të përshtatjes së tepërt.

Normalizimi dhe standardizimi

Normalizimi dhe standardizimi janë të dyja teknika të parapërpunimit të të dhënave të përdorura në mësimin e makinerive për shkallëzimin e veçorive të një grupi të dhënash për të përmirësuar performancën e modelit. Ato përdoren për të transformuar të dhënat në një format që është më i përshtatshëm për algoritmet e mësimit të makinerive.

Normalizimi është një teknikë që shkallëzon vlerat e veçorive midis 0 dhe 1. Kjo bëhet duke zbritur vlerën minimale nga secila vlerë në veçori dhe më pas duke e ndarë me diapazonin e veçorisë (d.m.th. dallimi midis vlerave maksimale dhe minimale). Normalizimi është i dobishëm kur shkalla e veçorive është e panjohur ose kur shkalla ndryshon shumë midis veçorive.

Standardizimi, nga ana tjetër, është një teknikë që shkallëzon vlerat e veçorive për të pasur zero mesatare dhe variancë njësi. Kjo bëhet duke zbritur mesataren nga çdo vlerë në veçori dhe më pas pjesëtuar me devijimi standard. Standardizimi është i dobishëm kur dihet shkalla e veçorive dhe kur veçoritë kanë shpërndarje të ngjashme.

Zgjedhja nëse do të përdoret normalizimi ose standardizimi varet nga grupi i të dhënave specifike dhe algoritmi i mësimit të makinës që përdoret. Në përgjithësi, standardizimi përdoret më shpesh, veçanërisht në rastet kur algoritmi supozon se tiparet janë të shpërndara normalisht ose kur tiparet kanë një shkallë të ngjashme.

Përdorni normalizimin:

  • Kur shkalla e veçorive është e panjohur ose kur shkalla ndryshon shumë midis veçorive.
  • Kur algoritmi që përdoret nuk bën ndonjë supozim për shpërndarjen e të dhënave.
  • Kur veçoritë janë të kufizuara (p.sh., midis 0 dhe 1).

Përdorni standardizimin:

  • Kur dihet shkalla e veçorive dhe kur tiparet kanë shpërndarje të ngjashme.
  • Kur algoritmi që përdoret supozon se tiparet janë të shpërndara normalisht.
  • Kur veçoritë janë të pakufizuara (p.sh., mund të marrin çdo vlerë).

Si normalizimi ashtu edhe standardizimi mund të zbatohen duke përdorur biblioteka të ndryshme në Python si scikit-learn ose NumPy.

Shpërndarja normale

Shpërndarja normale, e njohur gjithashtu si shpërndarja Gaussian ose kurba e ziles, është njëshpërndarje e vazhdueshme probabilitetiqë përdoret gjerësisht në statistika dhe teorinë e probabilitetit. Është një shpërndarje simetrike me një kurbë në formë zile që përcaktohet nga dy parametra: mesatarja (μ) dhe devijimi standard (σ).

Shpërndarja normale karakterizohet nga disa veti të rëndësishme:

  • Është unimodal, që do të thotë se ka një pik të vetëm në vlerën mesatare.
  • Është simetrik, që do të thotë se zona në të majtë të mesatares është e barabartë me zonën në të djathtë të mesatares.
  • Është asimptotik, që do të thotë se bishtet e kurbës shtrihen pafundësisht në të dy drejtimet dhe afrohen, por kurrë nuk prekin boshtin x.

Shpërndarja normale përdoret në një sërë aplikimesh, duke përfshirë konkluzionet statistikore, testimin e hipotezave dhe kontrollin e cilësisë. Përdoret gjithashtu zakonisht për të modeluar shumë fenomene natyrore, të tilla si lartësia e individëve në një popullsi, pesha e mollëve në një shportë ose gjatësia e kohës midis tërmeteve.

Një nga vetitë më të rëndësishme të shpërndarjes normale është teorema e kufirit qendror, e cila thotë se shuma ose mesatarja e një numri të madh të variablave të rastësishme të pavarura, të shpërndara në mënyrë identike do të shpërndahet përafërsisht normalisht, pavarësisht nga forma e shpërndarjes origjinale. Kjo veti e bën shpërndarjen normale një mjet themelor në analizën statistikore, pasi na lejon të nxjerrim konkluzione rreth popullatës nga një mostër të dhënash.

Shpërndarja normale ka një numër aplikimesh kryesore në statistika, duke përfshirë llogaritjen e probabiliteteve, intervalet e besimit dhe testet e hipotezave. Shpërndarja normale standarde, e cila ka një mesatare prej 0 dhe një devijim standard prej 1, është veçanërisht e rëndësishme pasi na lejon të standardizojmë çdo shpërndarje normale në një formë standarde që mund të krahasohet lehtësisht me shpërndarjet e tjera normale .

Në përgjithësi, shpërndarja normale është një koncept themelor në statistikat dhe teorinë e probabilitetit, dhe vetitë dhe aplikimet e saj janë thelbësore për këdo që punon në këto fusha.

Korrelacioni dhe Kovarianca

Korrelacioni dhe kovarianca janë dy masa statistikore që përdoren zakonisht për të përcaktuar sasinë e marrëdhënies midis dy variablave. Ndërsa të dyja matjet janë të lidhura, ato kapin aspekte të ndryshme të marrëdhënies midis variablave.

Kovarianca është një masë e ndryshueshmërisë së përbashkët të dy ndryshoreve të rastit. Është një masë se sa ndryshojnë dy variabla së bashku.Nëse kovarianca është pozitive, kjo tregon se variablat priren të rriten ose të ulen së bashku. Nëse kovarianca është negative, ajo tregon se kur një variabël rritet, ndryshorja tjetër tenton të ulet. Një kovariancë prej zero tregon se nuk ka lidhje lineare midis variablave.

Kovarianca llogaritet si vlera e pritur e produktit të devijimeve të dy variablave nga mesatarja e tyre përkatëse. Shënohet si Cov(X,Y) ose σ(X,Y), ku X dhe Y janë dy variablat.

Korrelacioni, nga ana tjetër, është një masë e normalizuar e marrëdhënies midis dy variablave. Ai mat shkallën në të cilën variablat janë të lidhura në mënyrë lineare me njëri-tjetrin.Korrelacioni merr vlera midis -1 dhe 1, me një vlerë prej -1 që tregon një marrëdhënie lineare negative të përsosur, një vlerë prej 1 që tregon një pozitive të përsosur të përsosur. marrëdhënie lineare, dhe një vlerë prej 0 që tregon asnjë lidhje lineare.

Korrelacioni llogaritet si kovarianca e dy variablave pjesëtuar me produktin e devijimeve standarde të tyre. Shënohet si Corr(X,Y) ose ρ(X,Y), ku X dhe Y janë dy variablat.

Një pikë e rëndësishme për t'u theksuar është se kovarianca mat forcën dhe drejtimin e marrëdhënies midis dy variablave, ndërsa korrelacioni mat drejtimin dhe forcën e marrëdhënies midis dy variablave pas normalizimit për shkallën e variablave.

Në përmbledhje, kovarianca dhe korrelacioni janë dy masa të rëndësishme statistikore të përdorura për të përcaktuar sasinë e marrëdhënies midis dy variablave. Kovarianca mat ndryshueshmërinë e përbashkët të dy variablave, ndërsa korrelacioni mat shkallën në të cilën variablat lidhen në mënyrë lineare me njëri-tjetrin.

Testimi A/B

Testimi A/B, i njohur gjithashtu si testimi i ndarë ose testimi me kovë, është një metodë për të krahasuar dy versione të një produkti ose shërbimi për të përcaktuar se cili prej tyre funksionon më mirë. Është një teknikë statistikore e përdorur për të vlerësuar ndikimin e ndryshimeve në sjelljen e përdoruesve dhe mund të përdoret për të përmirësuar një gamë të gjerë produktesh dhe shërbimesh, duke përfshirë faqet e internetit, aplikacionet celulare, fushatat e marketingut dhe më shumë.

Procesi i testimit A/B përfshin ndarjen e rastësishme të një kampioni përdoruesish në dy grupe, ku secili grup i ekspozohet një versioni të ndryshëm të produktit ose shërbimit. Për shembull, një grupi mund t'i shfaqet një faqe interneti me një buton të kuq, ndërsa grupit tjetër i shfaqet e njëjta faqe interneti me një buton jeshil. Më pas, performanca e secilit version krahasohet bazuar në një metrikë specifike, si p.sh. shkalla e konvertimit ose shkalla e klikimeve.

Qëllimi i testimit A/B është të përcaktojë se cili version i produktit ose shërbimit çon në një përmirësim statistikisht të rëndësishëm në metrikën e dëshiruar. Për ta bërë këtë, testet statistikore përdoren për të përcaktuar nëse ndryshimi i vëzhguar në performancën midis dy versioneve ka të ngjarë të jetë për shkak të rastësisë ose nëse është statistikisht i rëndësishëm.

Vlera P

Në statistika, vlera p është një masë e fuqisë së provave kundër hipotezës zero. Hipoteza zero është një deklaratë në lidhje me një parametër të popullsisë që po testohet duke përdorur një test statistikor. Vlera p na tregon se sa e mundshme është që ne të vëzhgonim statistikën e testit ose një vlerë më ekstreme nëse hipoteza zero do të ishte e vërtetë.

Në terma më të thjeshtë,vlera p është një probabilitet që përdoret për të përcaktuar nëse rezultatet e një testi statistikor janë statistikisht të rëndësishme. Nëse vlera p është e vogël (zakonisht më pak se 0.05 ose 0.01), kjo sugjeron që rezultatet nuk kanë gjasa të jenë për shkak të rastësisë dhe se ne mund të hedhim poshtë hipotezën zero. Nëse vlera p është e madhe, sugjeron që rezultatet mund të kenë ndodhur rastësisht dhe se ne nuk mund ta hedhim poshtë hipotezën zero.

Me fjalë të tjera, nëse vlera p është më e vogël se 0.05 (ose 0.01), ajo konsiderohet statistikisht e rëndësishme. Kjo do të thotë se ka më pak se 5% (ose 1%) mundësi që rezultatet e vëzhguara të kenë ndodhur vetëm rastësisht, duke supozuar se hipoteza zero është e vërtetë.

Vlera p llogaritet në bazë të statistikës së testit, e cila varet nga testi specifik që përdoret. Testet e zakonshme statistikore që përdorin vlerën p përfshijnë testet t, ANOVA dhe testet chi-square.

Është e rëndësishme të theksohet se vlera p nuk është e njëjtë me probabilitetin që hipoteza zero të jetë e vërtetë ose e gabuar. Ai jep informacion vetëm për mundësinë e vëzhgimit të rezultateve nëse hipoteza zero ishte e vërtetë. Për më tepër, vlera p nuk duhet të përdoret si kriteri i vetëm për të vendosur nëse do të refuzoni ose pranoni hipotezën zero. Faktorë të tjerë, si madhësia e efektit dhe dizajni i studimit, duhet të merren gjithashtu në konsideratë.

Në përmbledhje, vlera p është një masë statistikore e përdorur për të përcaktuar mundësinë e vëzhgimit të rezultateve të një testi statistikor nëse hipoteza zero ishte e vërtetë. Është një mjet i rëndësishëm për përcaktimin e rëndësisë statistikore të gjetjeve të hulumtimit dhe për marrjen e vendimeve bazuar në rezultatet e analizave statistikore.

Asnje hipoteze

Në statistika, hipoteza zero është një deklaratë ose supozim në lidhje me një parametër të popullsisë që po testohet duke përdorur një test statistikor. Hipoteza zero është zakonisht deklarata e "pa efekt" ose "asnjë ndryshim" midis dy grupeve ose variablave.

Për shembull, nëse duam të krahasojmë lartësitë mesatare të dy popullatave, hipoteza zero do të ishte se nuk ka ndryshim në lartësinë mesatare midis dy popullatave. Kjo zakonisht shënohet si H0.

Hipoteza zero është e rëndësishme sepse shërben si pikë referimi për krahasimin e rezultateve të vëzhguara me atë që do të pritej vetëm rastësisht. Testi statistikor është krijuar për të llogaritur probabilitetin e vëzhgimit të rezultateve nëse hipoteza zero ishte e vërtetë. Nëse ky probabilitet është shumë i vogël (zakonisht më pak se 0.05), ne hedhim poshtë hipotezën zero dhe konkludojmë se ka një ndryshim ose efekt statistikisht domethënës.

Është e rëndësishme të theksohet se hipoteza zero nuk është gjithmonë e vërtetë, por supozohet se është e vërtetë derisa të ketë prova të mjaftueshme për ta hedhur poshtë atë. Hipoteza alternative, e shënuar si Ha, është pohimi i asaj që ne presim të jetë e vërtetë nëse hipoteza zero refuzohet.

Në përmbledhje, hipoteza zero është një deklaratë në lidhje me një parametër të popullsisë që po testohet duke përdorur një test statistikor. Ai shërben si pikë referimi për krahasimin e rezultateve të vëzhguara me atë që do të pritej vetëm rastësisht, dhe zakonisht është deklarata e "pa efekt" ose "asnjë ndryshim" midis dy grupeve ose variablave.

K-Fold Cross Validation

Vlefshmëria e kryqëzuar me K-fold është një teknikë e përdorur në mësimin e makinerive për të vlerësuar performancën e një modeli. Ideja bazë pas verifikimit të kryqëzuar me K-fold është ndarja e të dhënave të disponueshme në K nënbashkësi, ose "palosje" me madhësi afërsisht të barabartë. Modeli stërvitet në K-1 të palosjeve dhe testohet në palosjen e mbetur, dhe ky proces përsëritet K herë, ku çdo palosje përdoret si grup testimi një herë.

Për shembull, le të themi se kemi një grup të dhënash prej 1000 vëzhgimesh dhe zgjedhim K=5 për verifikimin tonë të kryqëzuar. Së pari do ta ndajmë rastësisht grupin e të dhënave në 5 nëngrupe me madhësi të barabartë, secila me 200 vëzhgime. Më pas do të përsërisim procedurën e mëposhtme 5 herë:

  1. Zgjidhni një nga nëngrupet si grup testimi.
  2. Trajnoni modelin në 4 nëngrupet e mbetura.
  3. Testoni modelin në grupin e testit të zgjedhur dhe llogaritni metrikën e vlerësimit të interesit.
  4. Ruani metrikën e vlerësimit.

Pas përfundimit të procesit 5 herë, ne do të kemi vlerësuar modelin në të 1000 vëzhgimet. Më pas mund të llogarisim metrikën mesatare të performancës në të gjitha palosjet K si një vlerësim të performancës së modelit.

Vërtetimi i kryqëzuar në K-fold është veçanërisht i dobishëm kur kemi një sasi të kufizuar të dhënash, pasi na lejon të përdorim më mirë të dhënat e disponueshme duke përdorur të gjitha vëzhgimet si për trajnim ashtu edhe për testim. Ai gjithashtu siguron një vlerësim më të fortë të performancës së modelit duke reduktuar ndikimin e nëngrupit specifik të vëzhgimeve të përdorura për trajnim dhe testim.

Një variacion i zakonshëm i verifikimit të kryqëzuar me K-fold është vërtetimi i kryqëzuar i shtresëzuar K-fold, i cili siguron që secila pjesë të përmbajë afërsisht të njëjtin proporcion vëzhgimesh nga çdo klasë ose kategori, veçanërisht kur kemi të bëjmë me grupe të dhënash të çekuilibruara.

Kërkimi në rrjet

Kërkimi në rrjet është një teknikë e përdorur në mësimin e makinerive për të gjetur hiperparametrat optimalë të një modeli. Hiperparametrat janë parametra të një algoritmi të mësimit të makinës që nuk mësohen nga të dhënat, por përkundrazi vendosen para trajnimit. Shembuj të hiperparametrave përfshijnë shpejtësinë e të mësuarit, fuqinë e rregullimit dhe numrin e shtresave të fshehura në një rrjet nervor.

Kërkimi në rrjet përfshin specifikimin e një sërë vlerash për çdo hiperparametër dhe më pas testimin sistematik të të gjitha kombinimeve të mundshme të hiperparametrave duke përdorur verifikimin e kryqëzuar për të vlerësuar performancën e modelit. Rezultati është një rrjet kombinimesh hiperparametrash dhe metrikat e tyre përkatëse të performancës.

Për shembull, nëse do të përdornim një klasifikues të pemës së vendimit, mund të dëshironim të optimizonim thellësinë maksimale të pemës dhe numrin minimal të mostrave të kërkuara për të ndarë një nyje. Ne mund të krijojmë një rrjet vlerash për këto hiperparametra, të tilla si [1, 2, 3, 4, 5] për thellësinë maksimale dhe [2, 4, 6, 8, 10] për numrin minimal të mostrave të kërkuara për të ndarë një nyje. Kërkimi në rrjet do të testonte më pas të gjitha kombinimet e mundshme të këtyre hiperparametrave (p.sh. thellësia maksimale=3 dhe mostrat minimale për të ndarë=8) dhe do të vlerësonte modelin që rezulton duke përdorur verifikimin e kryqëzuar.

Kërkimi në rrjet mund të jetë i kushtueshëm nga ana llogaritëse, veçanërisht kur kemi të bëjmë me një numër të madh hiperparametrash ose grupe të dhënash të mëdha. Për të adresuar këtë, teknika të ndryshme janë zhvilluar për të reduktuar hapësirën e kërkimit dhe për të përshpejtuar procesin e optimizimit, si kërkimi i rastësishëm, optimizimi Bayesian dhe optimizimi i bazuar në gradient.

Si përmbledhje, kërkimi në rrjet është një teknikë e përdorur në mësimin e makinerive për gjetjen e hiperparametrave optimalë të një modeli duke testuar sistematikisht të gjitha kombinimet e mundshme të hiperparametrave dhe duke vlerësuar modelin që rezulton duke përdorur verifikimin e kryqëzuar. Është një mjet i fuqishëm. për optimizimin e performancës së modelit, por mund të jetë i kushtueshëm nga ana llogaritëse dhe mund të kërkojë teknika shtesë për të përshpejtuar procesin e optimizimit.

Ligji i numrave të mëdhenj

Ligji i numrave të mëdhenj është një teoremë themelore në teorinë dhe statistikat e probabilitetit që përshkruan sjelljen e mesatares së një numri të madh variablash të rastësishëm të pavarur, të shpërndarë në mënyrë identike. Ligji thotë se me rritjen e numrit të vëzhgimeve ose mostrave, mesatarja e mostrës së vëzhgimeve ose mostrave do të konvergojë në vlerën e pritur të ndryshores së rastësishme, me saktësi në rritje.

Për shembull, supozoni se hedhim një monedhë të drejtë shumë herë dhe regjistrojmë rezultatet. Ligji i numrave të mëdhenj na tregon se me rritjen e numrit të hedhjeve të monedhës, përqindja e kokave të vëzhguara do të konvergojë në 0.5, vlera e pritur e hedhjes së monedhës. Sa më shumë herë ta hedhim monedhën, aq më saktë proporcioni i kokave do t'i afrohet 0,5.

Në terma formalë, ligji i numrave të mëdhenj mund të shprehet si më poshtë:

Le të jetë X1, X2, ..., Xn një sekuencë e variablave të rastësishme të pavarura, të shpërndara identike me mesatare të fundme E(Xi). Pastaj, për çdo epsilon › 0,

lim n-›pafundësi P(|(X1+X2+…+Xn)/n — E(Xi)| ›= epsilon) = 0.

Kjo do të thotë që ndërsa madhësia e kampionit n rritet, probabiliteti që mesatarja e kampionit të ndryshojë nga vlera e pritur me më shumë se një sasi e caktuar epsilon i afrohet zeros.

Ligji i numrave të mëdhenj është një koncept themelor në statistikë dhe përdoret në shumë fusha të matematikës dhe shkencës së aplikuar, duke përfshirë financat, fizikën dhe inxhinierinë. Ai siguron një bazë teorike për shumë metoda statistikore, të tilla si vlerësimi i gjasave maksimale, testimi i hipotezave dhe intervalet e besimit.

Analizat e njëanshme, bivariate dhe shumëvariate

Analizat univariate, bivariate dhe multivariate janë tre lloje të analizave statistikore të përdorura në analizën, modelimin dhe kërkimin e të dhënave. Ato ndryshojnë në numrin e variablave të përfshirë dhe llojet e pyetjeve të cilave mund t'u përgjigjen.

Analiza e njëanshme është lloji më i thjeshtë i analizës dhe përfshin ekzaminimin e një ndryshoreje të vetme. Përdoret për të kuptuar shpërndarjen, tendencën qendrore dhe shpërndarjen e një ndryshoreje. Analiza e njëanshme përfshin masa të tilla si mesatarja, mediana, modaliteti, devijimi standard dhe diapazoni. Përdoret për të përshkruar karakteristikat e një variabli të vetëm dhe mund të përdoret për të identifikuar pikat e jashtme ose anomalitë në të dhëna.

Analiza e dy variablave përfshin analizimin e marrëdhënies midis dy variablave. Përdoret për të përcaktuar nëse ka një lidhje midis dy variablave dhe fuqisë dhe drejtimit të asaj marrëdhënieje. Analiza bivariate përfshin masa të tilla si korrelacioni, regresioni dhe tabelat e kontigjencës. Mund të përdoret për të testuar hipotezat, për të identifikuar modelet në të dhëna dhe për të bërë parashikime.

Analiza multivariate përfshin analizimin e marrëdhënies ndërmjet variablave të shumtë në të njëjtën kohë. Përdoret për të kuptuar marrëdhëniet komplekse midis variablave dhe për të identifikuar modele në të dhëna që mund të mos jenë të dukshme në analizat e njëanshme ose të dyfishta. Analiza multivariate përfshin teknika të tilla si analiza e faktorëve, analiza e komponentit kryesor dhe analiza e grupimeve. Mund të përdoret për të identifikuar grupet e variablave të lidhur, për të reduktuar dimensionalitetin e të dhënave dhe për të modeluar marrëdhënie komplekse.

Në përmbledhje, analiza njëvariatare përdoret për të përshkruar një variabël të vetëm, analiza bivariate përdoret për të analizuar marrëdhëniet midis dy variablave dhe analiza multivariate përdoret për të analizuar marrëdhëniet midis variablave të shumtë. Çdo lloj analize ka pikat e forta dhe kufizimet e veta dhe përdoret për qëllime të ndryshme në analizën dhe kërkimin e të dhënave.

Matrica e korrelacionit

Një matricë korrelacioni është një tabelë që shfaq koeficientët e korrelacionit midis çifteve të variablave. Në statistika, korrelacioni mat fuqinë e marrëdhënies midis dy variablave, duke treguar se sa ndryshon një variabël në përgjigje të ndryshimeve në variablin tjetër.

Një matricë korrelacioni mund të përfaqësohet si një matricë katrore, ku çdo rresht dhe kolonë korrespondon me një ndryshore, dhe vlerat në matricë janë koeficientët e korrelacionit midis çifteve përkatëse të variablave. Diagonalja e matricës tregon korrelacionin e secilës ndryshore me vetveten, e cila është gjithmonë e barabartë me 1.

Koeficienti i korrelacionit varion nga -1 në 1, me -1 që tregon një korrelacion të përsosur negativ, 0 që tregon një korrelacion të përsosur dhe 1 që tregon një korrelacion të përsosur pozitiv. Një korrelacion i përsosur negativ do të thotë se ndërsa një ndryshore rritet, variabli tjetër zvogëlohet me të njëjtën shumë. Një korrelacion i përsosur pozitiv do të thotë që me rritjen e një variabël, ndryshorja tjetër rritet me të njëjtën sasi. Një koeficient korrelacioni prej 0 do të thotë se nuk ka asnjë lidhje midis dy variablave.

Një matricë korrelacioni është e dobishme për identifikimin e modeleve dhe marrëdhënieve midis variablave dhe mund të përdoret për analizën e të dhënave eksploruese, përzgjedhjen e veçorive dhe modelimin. Është gjithashtu i dobishëm për zbulimin e shumëkolinearitetit, i cili ndodh kur dy ose më shumë variabla janë shumë të lidhur me njëri-tjetrin dhe mund të çojnë në vlerësime të paqëndrueshme në modelet e regresionit.

Ekzistojnë disa metoda për llogaritjen e matricës së korrelacionit, duke përfshirë koeficientin e korrelacionit Pearson, i cili mat marrëdhënien lineare midis dy variablave, dhe koeficientin e korrelacionit të renditjes Spearman, i cili mat fuqinë e marrëdhënies monotonike midis dy variablave. Zgjedhja e metodës varet nga natyra e të dhënave dhe pyetja e kërkimit që trajtohet.

Në përgjithësi, një matricë korrelacioni është një mjet i dobishëm për të kuptuar marrëdhëniet midis variablave dhe mund të sigurojë njohuri mbi modelet themelore në të dhëna.

Mësimi i thellë

Mësimi i thellë është një nëngrup i mësimit të makinerive që po fiton me shpejtësi popullaritet vitet e fundit. Ai përfshin trajnimin e rrjeteve nervore me shtresa të shumta për të nxjerrë dhe mësuar automatikisht veçori nga të dhënat e papërpunuara, pa pasur nevojë për inxhinieri të qartë të veçorive. Kjo e ka bërë atë veçanërisht të fuqishëm për detyra të tilla si njohja e imazhit dhe e të folurit. , përpunimi i gjuhës natyrore dhe luajtja e lojërave.

Arkitektura e një modeli të të mësuarit të thellë zakonisht përbëhet nga një shtresë hyrëse, një ose më shumë shtresa të fshehura dhe një shtresë dalëse. Çdo shtresë përmban një numër nyjesh ose neuronesh, që kryejnë operacione matematikore në hyrje. të dhëna për të prodhuar një rezultat. Hyrja futet në shtresën e parë dhe dalja e secilës shtresë kalon si hyrje në shtresën tjetër. Prodhimi përfundimtar i modelit prodhohet nga shtresa e daljes.

Avantazhi kryesor i të mësuarit të thellë është aftësia e tij për të mësuar dhe nxjerrë automatikisht veçori nga të dhënat e papërpunuara. Kjo është në kontrast me qasjet tradicionale të mësimit të makinerive, ku inxhinieria e veçorive zakonisht bëhet me dorë, gjë që mund të marrë kohë dhe kërkon njohuri specifike për domenin. Me mësim të thellë, modeli mëson të nxjerrë automatikisht veçoritë më të rëndësishme nga të dhënat, duke çuar në performancë dhe saktësi më të mirë.

Një nga arkitekturat më të njohura të mësimit të thellë është rrjeti nervor konvolucional (CNN), i cili përdoret zakonisht për detyrat e njohjes së imazheve dhe videove. Një CNN përbëhet nga një seri shtresash konvolucionale që nxjerrin veçori nga imazhi hyrës, të ndjekur nga një ose më shumë shtresa të lidhura plotësisht që prodhojnë daljen përfundimtare. Një arkitekturë tjetër e njohur është rrjeti nervor i përsëritur (RNN), i cili përdoret për detyra të tilla si njohja e të folurit dhe përpunimi i gjuhës natyrore. RNN-të janë krijuar për të trajtuar sekuenca të dhënash, të tilla si një sekuencë fjalësh në një fjali dhe mund të kapin varësi të përkohshme midis pikave të të dhënave.

Mësimi i thellë është aplikuar në një gamë të gjerë aplikimesh, duke përfshirë makinat që drejtojnë vetë, diagnostikimin mjekësor, sistemet e rekomandimeve dhe luajtjen e lojërave. Është përdorur gjithashtu për të gjeneruar imazhe dhe video realiste, të njohura si modele gjeneruese, të cilat kanë shumë aplikime të mundshme në fusha të tilla si argëtimi dhe reklamimi.

Megjithatë, të mësuarit e thellë nuk është pa sfida. Trajnimi i rrjeteve të thella nervore mund të jetë intensiv nga ana llogaritëse dhe kërkon sasi të mëdha të dhënash dhe fuqi llogaritëse. Ekzistojnë gjithashtu shqetësime rreth interpretueshmërisë së modeleve të të mësuarit të thellë, pasi ato shpesh shihen si kuti të zeza që janë të vështira për t'u kuptuar ose shpjeguar. Përveç kësaj, ka konsiderata etike rreth përdorimit të të mësuarit të thellë, veçanërisht në fusha të tilla si njohja e fytyrës dhe mbikëqyrja.

Pavarësisht këtyre sfidave, mësimi i thellë ka revolucionarizuar fushën e inteligjencës artificiale dhe pritet të ketë një ndikim të rëndësishëm në shumë industri në vitet në vijim. Ndërsa më shumë të dhëna bëhen të disponueshme dhe fuqia kompjuterike vazhdon të rritet, ka të ngjarë që mësimi i thellë të vazhdojë të jetë në krye të kërkimit dhe zhvillimit të AI.

Rrjeti nervor

Një rrjet nervor është një lloj modeli i mësimit të makinerive që është krijuar për të simuluar strukturën dhe funksionin e trurit të njeriut. Ai përbëhet nga shtresa nyjesh të ndërlidhura, ose neurone, që përpunojnë dhe transmetojnë informacionin përmes një rrjeti lidhjesh të peshuara.

Struktura e një rrjeti nervor zakonisht përbëhet nga një shtresë hyrëse, një ose më shumë shtresa të fshehura dhe një shtresë dalëse. Çdo shtresë përmban një numër neuronesh, dhe neuronet në shtresat ngjitur janë të lidhur me lidhje të peshuara, të cilat përcaktojnë forcën e sinjalit të transmetuar midis tyre.

Shtesa hyrëse merr të dhënat hyrëse, të cilat përpunohen nga neuronet në shtresat e fshehura, dhe më pas prodhon një dalje përmes shtresës dalëse. Dalja më pas krahasohet me daljen e dëshiruar dhe peshat e lidhjeve ndërmjet neuroneve rregullohen përmes një procesi të quajtur prapashpërndarje, i cili përditëson peshat bazuar në diferencën midis prodhimit të parashikuar dhe prodhimit aktual.

Rrjetet nervore mund të përdoren për një gamë të gjerë detyrash, duke përfshirë njohjen e imazhit dhe të të folurit, përpunimin e gjuhës natyrore dhe luajtjen e lojërave të tilla si shahu dhe Go. Ato janë veçanërisht të fuqishme për detyrat që përfshijnë modele komplekse ose marrëdhënie jolineare dhe mund të mësojnë të njohin modele dhe veçori në të dhënat që mund të mos jenë të dukshme për njerëzit.

Një nga llojet më të njohura të rrjeteve neurale është rrjeti nervor përpara, i cili përbëhet nga shtresa neuronesh që përpunojnë të dhënat hyrëse në një drejtim përpara, pa asnjë unazë reagimi. Një lloj tjetër i popullarizuar është rrjeti nervor i përsëritur, i cili është krijuar për të trajtuar sekuenca të dhënash, të tilla si një sekuencë fjalësh në një fjali, dhe mund të kapë varësi të përkohshme midis pikave të të dhënave.

Rrjetet nervore kanë shumë përparësi ndaj modeleve tradicionale të mësimit të makinerive. Ata mund të mësojnë dhe nxjerrin automatikisht veçori nga të dhënat e papërpunuara, pa pasur nevojë për inxhinieri të qartë të veçorive. Ata gjithashtu mund të trajtojnë sasi të mëdha të dhënash dhe marrëdhënie komplekse midis variablave. Megjithatë, ato janë intensive llogaritëse dhe kërkojnë sasi të mëdha të dhënash dhe fuqi kompjuterike për t'u trajnuar.

Në përgjithësi, rrjetet nervore janë një mjet i fuqishëm për mësimin e makinerive dhe janë aplikuar në një gamë të gjerë aplikimesh në industri dhe akademi. Ndërsa më shumë të dhëna bëhen të disponueshme dhe fuqia kompjuterike vazhdon të rritet, ka të ngjarë që rrjetet nervore të vazhdojnë të jenë në ballë të kërkimit dhe zhvillimit të mësimit të makinerive.

Rregullimi i peshës

Në mësimin e makinerive, procesi i rregullimit të peshave të një modeli quhet trajnim. Gjatë trajnimit, modeli paraqitet me një sërë të dhënash hyrëse dhe peshat rregullohen bazuar në diferencën midis prodhimit të parashikuar dhe prodhimit aktual.

Qëllimi i trajnimit është gjetja e grupit të peshave që minimizon gabimin midis rezultatit të parashikuar dhe rezultatit aktual. Kjo zakonisht bëhet duke përdorur një algoritëm optimizimi, si p.sh. zbritja me gradient, për të rregulluar në mënyrë të përsëritur peshat në drejtimin e zbritjes më të pjerrët të funksionit të humbjes.

Funksioni i humbjes mat diferencën midis prodhimit të parashikuar dhe prodhimit aktual, dhe qëllimi i algoritmit të optimizimit është të minimizojë këtë diferencë. Përllogaritet gradienti i funksionit të humbjes në lidhje me peshat, dhe peshat rregullohen në drejtim të gradientit negativ, i cili korrespondon me drejtimin e zbritjes më të pjerrët.

Shpejtësia e të mësuarit është një hiperparametër që përcakton se sa janë rregulluar peshat në çdo përsëritje. Nëse shkalla e të mësuarit është shumë e lartë, algoritmi i optimizimit mund të tejkalojë minimumin dhe nëse shkalla e të mësuarit është shumë e ulët, algoritmi mund të marrë shumë kohë për t'u konverguar.

Përveç shkallës së të mësuarit, ka hiperparametra të tjerë që mund të ndikojnë në performancën e modelit, si numri i shtresave, numri i neuroneve në secilën shtresë dhe funksioni i aktivizimit të përdorur në secilin neuron. Këta hiperparametra mund të akordohen përmes një procesi të quajtur optimizimi i hiperparametrave, i cili përfshin testimin e kombinimeve të ndryshme të hiperparametrave dhe zgjedhjen e atyre që performojnë më mirë në një grup vërtetimi.

Në përgjithësi, procesi i rregullimit të peshave të një modeli të mësimit të makinerive është një pjesë thelbësore e procesit të trajnimit dhe mund të ketë një ndikim të rëndësishëm në performancën e modelit. Kërkon akordim të kujdesshëm të hiperparametrave dhe përdorimin e algoritmeve të optimizimit për të gjetur grupin e peshave që minimizojnë gabimin midis prodhimit të parashikuar dhe prodhimit aktual.

Përhapja prapa

Përhapja prapa është një algoritëm i përdorur gjerësisht në mësimin e makinerive për trajnimin e rrjeteve nervore artificiale. Është një algoritëm i mbikëqyrur i të mësuarit që mundëson optimizimin e peshave të një rrjeti nervor, bazuar në një grup të dhënash trajnimi të caktuar, në mënyrë që të minimizohet gabimi midis daljes së rrjetit dhe prodhimit të vërtetë.

Përhapja e pasme funksionon duke përhapur gabimin mbrapsht nëpër shtresat e rrjetit, duke filluar nga shtresa e daljes dhe duke lëvizur drejt shtresës hyrëse. Gabimi në secilën shtresë llogaritet bazuar në diferencën midis daljes së shtresës dhe daljes së dëshiruar, dhe ky gabim përdoret më pas për të përditësuar peshat e shtresës.

Përditësimi i peshave bazohet në gradientin e gabimit në lidhje me peshat, i cili llogaritet duke përdorur rregullin zinxhir të llogaritjes. Ky gradient na tregon se sa ndryshon gabimi kur ndryshojmë peshat dhe përdoret për të përditësuar peshat në drejtim të gradientit negativ, në mënyrë që të minimizojmë gabimin.

Përhapja prapa zakonisht kryhet në grupe, ku një grup i të dhënave hyrëse përdoret për të llogaritur gabimin dhe për të përditësuar peshat. Ky proces përsëritet për një sërë epokash, derisa gabimi në të dhënat e trajnimit të arrijë një nivel të kënaqshëm.

Një nga përfitimet kryesore të përhapjes së pasme është se mundëson optimizimin e rrjeteve të mëdha, komplekse me shumë shtresa dhe miliona pesha. Pa përhapjen e pasme, do të ishte jashtëzakonisht e vështirë të optimizoni me dorë peshat e këtyre rrjeteve.

Sidoqoftë, përhapja e pasme nuk është pa kufizime. Një nga kufizimet kryesore është problemi i zhdukjes së gradientëve, ku gradienti bëhet shumë i vogël për shtresat që janë shumë larg shtresës së daljes, duke e bërë të vështirë përditësimin e peshave. Për të kapërcyer këtë problem, janë zhvilluar disa teknika, si përdorimi i funksioneve të ndryshme të aktivizimit dhe inicializimi i peshave në një mënyrë specifike.

Në përmbledhje, përhapja e pasme është një algoritëm i fuqishëm për trajnimin e rrjeteve nervore, duke mundësuar optimizimin e peshave dhe minimizimin e gabimeve. Ndërsa ka disa kufizime, është përdorur gjerësisht në mësimin e thellë dhe ka kontribuar në shumë përparime në këtë fushë.

Hapat e përhapjes së pasme

Përhapja prapa është një algoritëm i përdorur për të trajnuar rrjetet nervore duke llogaritur gradientin e funksionit të humbjes në lidhje me parametrat e rrjetit. Më pas, gradienti përdoret për të përditësuar peshat e rrjetit në drejtimin e zbritjes më të pjerrët, me synimin për të minimizuar funksionin e humbjes. Algoritmi i përhapjes së pasme përbëhet nga disa hapa:

  1. Kalimi përpara: Të dhënat hyrëse futen në rrjet dhe funksioni i aktivizimit zbatohet në çdo neuron në secilën shtresë. Prodhimi i çdo neuroni llogaritet dhe përhapet përpara nëpër shtresat e rrjetit për të prodhuar daljen përfundimtare.
  2. Llogaritja e humbjeve: Funksioni i humbjes llogaritet bazuar në daljen e rrjetit dhe daljen e dëshiruar. Funksioni i humbjes është zakonisht një masë e diferencës midis prodhimit të parashikuar dhe prodhimit të vërtetë.
  3. Kalimi prapa: Është llogaritur gradienti i funksionit të humbjes në lidhje me daljen e rrjetit. Ky gradient më pas përhapet mbrapsht nëpër shtresat e rrjetit duke përdorur rregullin e zinxhirit të llogaritjes. Gradienti përdoret për të përditësuar peshat e rrjetit në drejtimin e zbritjes më të pjerrët.
  4. Përditësimi i peshës: Peshat e rrjetit përditësohen duke përdorur një algoritëm optimizimi si p.sh. zbritja e gradientit stokastik. Kjo përfshin llogaritjen e gradientit të funksionit të humbjes në lidhje me secilën peshë dhe rregullimin e peshës në drejtimin që minimizon funksionin e humbjes.
  5. Përsëriteni:Hapat 1–4 përsëriten për një numër përsëritjesh derisa rrjeti të arrijë një nivel të kënaqshëm të performancës. Kjo mund të përfshijë rregullimin e hiperparametrave të tillë si shpejtësia e të mësuarit, numri i përsëritjeve dhe struktura e rrjetit.

Në përmbledhje, përhapja e pasme është një algoritëm i përdorur për të trajnuar rrjetet nervore duke llogaritur gradientin e funksionit të humbjes në lidhje me parametrat e rrjetit. Algoritmi përfshin një kalim përpara, një llogaritje humbjeje, një kalim prapa dhe një përditësim të peshës. Duke rregulluar në mënyrë të përsëritur peshat e rrjetit, algoritmi kërkon të minimizojë funksionin e humbjes dhe të përmirësojë performancën e rrjetit.

Funksioni i kostos

Në mësimin e makinerive, funksioni i kostos, i njohur gjithashtu si funksioni i humbjes ose funksioni objektiv, është një masë se sa mirë po performon modeli në një detyrë të caktuar. Përdoret për të përcaktuar diferencën midis rezultatit të parashikuar të modelit dhe rezultatit të vërtetë, dhe për të udhëhequr procesin e të mësuarit, duke rregulluar peshat e modelit për të minimizuar funksionin e kostos.

Funksioni i kostos përcaktohet në terma të parametrave të modelit, të cilat zakonisht janë peshat dhe paragjykimet e një rrjeti nervor. Qëllimi i të mësuarit është gjetja e vlerave të këtyre parametrave që minimizojnë funksionin e kostos, duke i përshtatur ato bazuar në gradientët e funksionit të kostos në lidhje me parametrat.

Ekzistojnë shumë lloje të ndryshme të funksioneve të kostos, në varësi të natyrës së problemit dhe llojit të të dhënave. Disa funksione të kostos të përdorura zakonisht përfshijnë:

  1. Gabimi mesatar në katror (MSE): Ky është një funksion i njohur i kostos për problemet e regresionit, ku qëllimi është të parashikohet një rezultat i vazhdueshëm. Ai mat diferencën mesatare në katror midis prodhimit të parashikuar dhe prodhimit të vërtetë.
  2. Entropia e kryqëzuar binare: Ky është një funksion i kostos që përdoret për problemet e klasifikimit binar, ku rezultati është ose 0 ose 1. Ai mat diferencën midis prodhimit të parashikuar dhe prodhimit të vërtetë, duke përdorur funksionin logaritmik për të penalizon diferencat e mëdha më shumë se ato të vogla.
  3. Entropia e kryqëzuar kategorike: Ky është një funksion kostoje që përdoret për problemet e klasifikimit me shumë klasa, ku prodhimi mund të marrë vlera të shumta diskrete. Ai mat diferencën midis prodhimit të parashikuar dhe prodhimit të vërtetë, duke përdorur funksionin logaritmik për të penalizuar diferencat e mëdha më shumë se ato të vogla.

Zgjedhja e funksionit të kostos varet nga problemi specifik që trajtohet dhe nga natyra e të dhënave. Në disa raste, mund të jetë e nevojshme të përdoret një funksion i kostos me porosi që është i përshtatur për nevojat specifike të problemit.

Në përgjithësi, funksioni i kostos është një komponent kritik i mësimit të makinerive, pasi ofron një mënyrë për të matur performancën e modelit dhe për të udhëhequr procesin e të mësuarit. Duke minimizuar funksionin e kostos, ne mund të optimizojmë parametrat e modelit për të arritur performancën më të mirë të mundshme në detyrën në fjalë.

Hiperparametrat

Hiperparametrat janë parametra që nuk mësohen drejtpërdrejt nga të dhënat e trajnimit, por përkundrazi vendosen nga shkencëtari i të dhënave ose praktikuesi i mësimit të makinës përpara se të fillojë procesi i trajnimit. Ato përdoren për të kontrolluar aspekte të ndryshme të modelit të mësimit të makinës dhe procesit të trajnimit, të tilla si kompleksiteti i modelit, rregullimi dhe shkalla e të mësuarit.

Hiperparametrat mund të kenë një ndikim të rëndësishëm në performancën e modelit dhe gjetja e vlerave optimale për këto parametra është një hap i rëndësishëm në rrjedhën e punës së mësimit të makinës. Megjithatë, gjetja e vlerave optimale për hiperparametrat mund të jetë sfiduese, pasi kërkon eksperimentim provë dhe gabim dhe analizë të kujdesshme të performancës së modelit në të dhënat e vlefshmërisë.

Disa hiperparametra të zakonshëm në mësimin e makinerive përfshijnë:

  1. Shpejtësia e të mësuarit: Ky hiperparametër kontrollon madhësinë e hapit të algoritmit të optimizimit gjatë trajnimit. Nëse shkalla e të mësuarit është shumë e lartë, algoritmi mund të tejkalojë minimumin dhe të mos konvergojë, ndërsa nëse është shumë i ulët, algoritmi mund të konvergojë shumë ngadalë ose të ngecë në një minimum lokal.
  2. Forca e rregullimit: Rregullimi është një teknikë e përdorur për të parandaluar mbipërshtatjen e modelit në të dhënat e trajnimit, duke shtuar një term penaliteti në funksionin e kostos. Hiperparametri i forcës së rregullimit kontrollon shkëmbimin midis kompleksitetit të modelit dhe rregullimit.
  3. Numri i shtresave të fshehura: Numri i shtresave të fshehura në një rrjet nervor është një hiperparametër që kontrollon kompleksitetin e modelit. Shumë pak shtresa të fshehura mund të rezultojnë në një model të papërshtatshëm, ndërsa shumë shtresa të fshehura mund të rezultojnë në një model të mbipërshtatjes.
  4. Funksioni i aktivizimit: Funksioni i aktivizimit përdoret për të futur jolinearitetin në rrjetin nervor, i cili është i nevojshëm për modelimin e marrëdhënieve komplekse midis hyrjes dhe daljes. Ekzistojnë disa funksione të ndryshme aktivizimi për të zgjedhur, dhe zgjedhja e funksionit të aktivizimit mund të ketë një ndikim të rëndësishëm në performancën e modelit.

Në përgjithësi, hiperparametrat luajnë një rol kritik në mësimin e makinerive, pasi ata përcaktojnë sjelljen dhe performancën e modelit. Zgjedhja dhe rregullimi i kujdesshëm i hiperparametrave është thelbësor për arritjen e performancës më të mirë të mundshme në detyrën në fjalë.

Epoka, grupi dhe përsëritja

Në mësimin e makinerive, trajnimi i një modeli përfshin përsëritjen e një grupi të dhënash disa herë, duke rregulluar parametrat e modelit bazuar në të dhënat, derisa performanca e modelit të arrijë një nivel të kënaqshëm. Ekzistojnë tre terma që përdoren zakonisht për të përshkruar fazat e ndryshme të këtij procesi përsëritës: epoka, grupi dhe përsëritja.

  1. Epoka: Një epokë i referohet një kalimi të vetëm nëpër të gjithë grupin e të dhënave gjatë procesit të trajnimit. Për shembull, nëse ka 10,000 mostra trajnimi dhe madhësia e grupit është caktuar në 100, atëherë çdo epokë do të përfshijë 100 përsëritje (diskutuar më poshtë).
  2. Batch: Një grup i referohet një nëngrupi të të dhënave të trajnimit që përdoren për të llogaritur gradientin e funksionit të humbjes dhe për të përditësuar parametrat e modelit. Numri i mostrave në çdo grup është një hiperparametër që mund të vendoset nga përdoruesi. Përdorimi i grupeve ndihmon në reduktimin e kërkesave për memorie të trajnimit, si dhe në përshpejtimin e procesit të trajnimit duke mundësuar llogaritjen paralele. Për shembull, nëse ka 10,000 mostra trajnimi dhe madhësia e grupit është caktuar në 100, atëherë çdo epokë do të përfshijë 100 tufa.
  3. Përsëritja: Një përsëritje i referohet një përditësimi të vetëm të parametrave të modelit bazuar në një grup të vetëm të dhënash trajnimi. Gjatë çdo përsëritjeje, modeli përpunon një grup të dhënash trajnimi, llogarit gradientin e funksionit të humbjes në lidhje me parametrat e modelit dhe përditëson parametrat duke përdorur një algoritëm optimizimi siç është zbritja e gradientit stokastik.

Në përmbledhje, një epokë është një kalim i vetëm nëpër të gjithë grupin e të dhënave, një grup është një nëngrup i të dhënave të përdorura për përditësimin e parametrave të modelit dhe një përsëritje është një përditësim i vetëm i parametrave të modelit bazuar në një grup të vetëm të të dhënave trajnimi. Numri i epokave, madhësia e grupit dhe përsëritjet për grup janë hiperparametra që mund të rregullohen për të optimizuar procesin e trajnimit dhe për të përmirësuar performancën e modelit.

Shtresat e rrjetit nervor konvulcional

Një Rrjet Neural Konvolutional (CNN) është një lloj rrjeti nervor që përdoret zakonisht për klasifikimin e imazheve, zbulimin e objekteve dhe detyra të tjera të vizionit kompjuterik. CNN-të përbëhen nga disa shtresa, secila prej të cilave kryen një llogaritje specifike në të dhënat hyrëse. Në këtë artikull, ne do të diskutojmë shtresat e ndryshme të një CNN tipik dhe funksionet e tyre.

  1. Shtresa konvolucionale: Shtresa konvolucionale është blloku kryesor i ndërtimit të një CNN. Kjo shtresë aplikon një grup filtrash në imazhin hyrës, duke prodhuar një sërë hartash veçorish që nxjerrin në pah veçori të ndryshme të imazhit. Filtrat mësohen gjatë procesit të trajnimit dhe janë zakonisht në përmasa të vogla (p.sh. 3x3 ose 5x5).
  2. Shtresa e bashkimit: Shtresa e bashkimit zakonisht përdoret pas një shtrese konvolucionale. Funksioni i tij kryesor është të zvogëlojë dimensionet hapësinore të hartave të veçorive duke ruajtur karakteristikat më të rëndësishme. Dy llojet më të zakonshme të shtresave të bashkimit janë bashkimi maksimal dhe bashkimi mesatar.
  3. Shtesa e aktivizimit: Shtresa e aktivizimit prezanton jolinearitetin në rrjet, i cili është i nevojshëm për modelimin e marrëdhënieve komplekse midis hyrjes dhe daljes. Më së shumti. Funksioni i aktivizimit i përdorur zakonisht është Njësia Lineare e korrigjuar (ReLU), e cila vendos të gjitha vlerat negative në zero dhe i lë vlerat pozitive të pandryshuara.
  4. Shtesa e braktisjes:Shtesa e braktisjes është një teknikë rregullimi që heq rastësisht (d.m.th. vendos në zero) një përqindje të caktuar të neuroneve në shtresë gjatë stërvitjes. Kjo ndihmon në parandalimin e përshtatjes së tepërtduke reduktuar ndërvarësinë ndërmjet neuroneve.
  5. Shtesa e normalizimit të grupit: Shtresa e normalizimit të grupit është një teknikë që përdoret për të përmirësuar stabilitetin dhe performancën e rrjetit. Ai normalizon hyrjen në secilën shtresë duke zbritur mesataren dhe duke e ndarë me devijimin standard të hyrjeve. Kjo ndihmon në zvogëlimin e zhvendosjes së brendshme të kovariateve dhe mundëson konvergjencë më të shpejtë dhe më të qëndrueshme gjatë stërvitjes.
  6. Shtresja e rrafshuar: Shtresa e rrafshuar përdoret për të kthyer daljen e shtresës së mëparshme në një vektor 1-dimensional që mund të futet në një shtresë plotësisht të lidhur. Kjo shtresë thjesht riformon tensorin hyrës në një vektor.
  7. Shtesa plotësisht e lidhur:Shtesa plotësisht e lidhur është një shtresë tradicionale e rrjetit nervor që lidh çdo neuron në shtresë me çdo neuron në shtresën e mëparshme. Zakonisht përdoret si shtresa përfundimtare e rrjetit, duke prodhuar parashikimet e daljes së rrjetit.

Si përfundim, një CNN tipik përbëhet nga disa shtresa, secila me një funksion specifik në përpunimin e imazhit të hyrjes. Këto shtresa punojnë së bashku për të nxjerrë veçori domethënëse nga imazhi i hyrjes dhe i përdorin këto veçori për të bërë parashikime. Kuptimi i funksioneve të çdo shtrese është i rëndësishëm për dizajnimin dhe trajnimin e CNN-ve efektive për detyrat e vizionit kompjuterik.

Zbritja me gradient

Zbritja e gradientit është një algoritëm optimizimi që përdoret në mësimin e makinerive për minimizimin e një funksioni kostoje. Funksioni i kostos mat se sa mirë po performon modeli i mësimit të makinës në një grup të caktuar të dhënash trajnimi. Qëllimi i zbritjes së gradientit është gjetja e vlerave të parametrave të modelit që minimizojnë funksionin e kostos.

Ideja bazë pas zbritjes së gradientit është që të rregullohen në mënyrë të përsëritur parametrat e modelit në drejtim të gradientit negativ të funksionit të kostos. Gradienti është një vektor i derivateve të pjesshme që tregon drejtimin e rritjes më të madhe të funksionit të kostos. Duke ndërmarrë hapa në drejtim të kundërt të gradientit, algoritmi mund të gjejë vlerat e parametrave që minimizojnë funksionin e kostos.

Algoritmi funksionon duke inicializuar parametrat e modelit me disa vlera të rastësishme dhe më pas duke llogaritur gradientin e funksionit të kostos në lidhje me ato parametra. Më pas, algoritmi bën një hap në drejtim të gradientit negativ, i cili zvogëlon vlerën e funksionit të kostos. Ky proces përsëritet derisa funksioni i kostos të konvergojë në minimum.

Ka disa variacione të zbritjes së gradientit, duke përfshirë zbritjen e gradientit të grupit, zbritjen e gradientit stokastik dhe zbritjen me gradient mini-gruri. Në zbritjen e gradientit të grupit, i gjithë grupi i trajnimit përdoret për të llogaritur gradientin në çdo përsëritje. Në zbritja stokastike e gradientit, përdoret një shembull i vetëm trajnimi i zgjedhur rastësisht për të llogaritur gradientin në çdo përsëritje. Në zbritja e gradientit me mini grumbull, një nëngrup i vogël i grupit të trajnimit përdoret për të llogaritur gradientin në çdo përsëritje.

Zgjedhja e algoritmit të zbritjes së gradientit dhe hiperparametrave të tij (siç është shkalla e mësimit dhe madhësia e grupit) mund të kenë një ndikim të rëndësishëm në performancën e modelit të mësimit të makinës. Nëse shkalla e të mësuarit është shumë e lartë, algoritmi mund të tejkalojë minimumin dhe të ndryshojë. Nëse shkalla e të mësuarit është shumë e ulët, algoritmi mund të konvergojë shumë ngadalë. Në mënyrë të ngjashme, nëse madhësia e grupit është shumë e madhe, algoritmi mund të jetë i ngadalshëm për të konverguar, ndërsa nëse madhësia e grupit është shumë e vogël, algoritmi mund të jetë i zhurmshëm.

Si përmbledhje, zbritja e gradientit është një algoritëm optimizimi i përdorur në mësimin e makinerive për të minimizuar një funksion të kostos. Algoritmi funksionon duke rregulluar në mënyrë të përsëritur parametrat e modelit në drejtim të gradientit negativ të funksionit të kostos. Ekzistojnë disa variacione të zbritjes së gradientit dhe zgjedhja e algoritmit dhe hiperparametrave mund të ketë një ndikim të rëndësishëm në performancën e modelit të mësimit të makinerisë.

TensorFlow, Keras dhe PyTorch

TensorFlow, Keras dhe PyTorch janë të gjitha bibliotekat e njohura të mësimit të makinerive që mund të përdoren për zhvillimin dhe vendosjen e modeleve të mësimit të thellë.

TensorFlow është një bibliotekë me burim të hapur për llogaritjen numerike dhe mësimin e makinerive, e zhvilluar nga Google. Përdoret gjerësisht si në kërkime ashtu edhe në industri për ndërtimin e modeleve të të mësuarit të thellë. TensorFlow ofron një model programimi fleksibël dhe një sërë mjetesh për ndërtimin dhe trajnimin e modeleve të mësimit të makinerive, duke përfshirë mbështetjen për llogaritjen e shpërndarë dhe vendosjen në një sërë pajisjesh.

Keras është një API e rrjeteve nervore të nivelit të lartë që funksionon në krye të TensorFlow. Ai ofron një ndërfaqe të thjeshtë dhe intuitive për ndërtimin dhe trajnimin e modeleve të të mësuarit të thellë, duke e bërë atë një zgjedhje popullore për fillestarët dhe studiuesit që duan të eksperimentoni shpejt me arkitektura dhe hiperparametra të ndryshëm. Keras është projektuar për të qenë i përshtatshëm për përdoruesit dhe i lehtë për t'u mësuar, me fokus në prototipimin dhe eksperimentimin e shpejtë.

PyTorch është një bibliotekë me burim të hapur të mësimit të makinerisë e zhvilluar nga Facebook. Është i njohur për grafin e tij dinamik të llogaritjes, i cili lejon fleksibilitet më të madh dhe korrigjim më të lehtë sesa grafikët e llogaritjes statike të përdorura në biblioteka të tjera. PyTorch ofron gjithashtu një sërë mjetesh për ndërtimin dhe trajnimin e modeleve të mësimit të thellë, duke përfshirë mbështetjen për kompjuterinë e shpërndarë dhe vendosjen në një sërë pajisjesh.

Të tre bibliotekat kanë pikat e tyre të forta dhe të dobëta, dhe zgjedhja e të cilave do të përdoret varet nga rasti specifik i përdorimit dhe preferencat personale të përdoruesit. TensorFlow është një zgjedhje e shkëlqyeshme për ndërtimin e modeleve në shkallë të gjerë, të gatshme për prodhim, ndërsa Keras është ideal për prototipa dhe eksperimentime të shpejta. PyTorch shpesh favorizohet nga studiuesit për shkak të fleksibilitetit dhe lehtësisë së përdorimit.

Këtu është një krahasim i shkurtër i tre bibliotekave:

  1. Lehtësia e përdorimit: Keras në përgjithësi konsiderohet të jetë më miqësore për përdoruesit nga tre bibliotekat, me një ndërfaqe të thjeshtë dhe intuitive që e bën të lehtë krijimin dhe trajnimin e të mësuarit të thellë modele. TensorFlow dhe PyTorch kërkojnë më shumë ekspertizë programimi, por ofrojnë fleksibilitet dhe kontroll më të madh mbi arkitekturën e modelit.
  2. Fleksibiliteti: PyTorch është i njohur për grafin e tij dinamik të llogaritjes, i cili lejon fleksibilitet më të madh dhe korrigjim më të lehtë sesa grafikët e llogaritjes statike të përdorura në TensorFlow dhe Keras. Kjo e bën PyTorch një zgjedhje popullore në mesin e studiuesve që duhet të eksperimentojnë me arkitektura të ndryshme modelesh dhe metoda trajnimi.
  3. Performanca: Të tre bibliotekat janë krijuar për të qenë shumë efikase dhe të shkallëzueshme, por TensorFlow përgjithësisht konsiderohet të jetë më performanca nga të treja, veçanërisht për aplikacionet e mësimit të makinerive në shkallë të gjerë. TensorFlow gjithashtu ofron mbështetje për llogaritjen e shpërndarë, gjë që e bën më të lehtë shkallëzimin e modeleve nëpër pajisje të shumta.
  4. Komuniteti dhe mbështetja: TensorFlow ka një komunitet të madh dhe aktiv zhvilluesish dhe përdoruesish, që do të thotë se ka shumë burime dhe dokumentacion të disponueshëm për ata që kanë nevojë për ndihmë. PyTorch po rritet gjithashtu në popullaritet dhe ka një komunitet të dedikuar zhvilluesish dhe studiuesish. Keras është një zgjedhje popullore për fillestarët, por mund të mos ofrojë të njëjtin nivel të mbështetjes së komunitetit si TensorFlow ose PyTorch.
  5. Shpërndarja: Të tre bibliotekat mbështesin vendosjen në një sërë pajisjesh, duke përfshirë desktopët, serverët dhe pajisjet celulare. TensorFlow dhe PyTorch të dy ofrojnë mbështetje për vendosjen në GPU dhe TPU, të cilat mund të përshpejtojnë ndjeshëm trajnimin dhe përfundimin e modelit.

Si përmbledhje, TensorFlow është një bibliotekë e fuqishme dhe performuese që është ideale për ndërtimin e aplikacioneve të mësimit të makinerive në shkallë të gjerë, ndërsa Keras është një bibliotekë miqësore për përdoruesit që është e shkëlqyeshme për prototipa dhe eksperimentime të shpejta. PyTorch është një bibliotekë fleksibël që është e popullarizuar në mesin e studiuesve për shkak të grafikut të saj dinamik të llogaritjes dhe lehtësisë së përdorimit. Zgjedhja se cila bibliotekë do të përdoret varet përfundimisht nga rasti specifik i përdorimit dhe nga preferencat dhe ekspertiza personale e përdoruesit.

Grafiku i llogaritjes dinamike

Një grafik llogaritës dinamik është një grafik llogaritës që ndërtohet menjëherë ndërsa programi ekzekutohet, në vend që të përcaktohet në mënyrë statike përpara ekzekutimit. Me fjalë të tjera, grafi ndërtohet në mënyrë dinamike ndërsa të dhënat rrjedhin përmes llogaritjes.

Grafikët dinamikë të llogaritjes janë një veçori e disa bibliotekave të mësimit të makinerive, duke përfshirë PyTorch. Ato lejojnë llogaritje më fleksibël dhe efikase, pasi grafiku mund të optimizohet dhe përshtatet bazuar në të dhënat specifike që përpunohen.

Në një grafik llogaritje dinamike, çdo operacion ekzekutohet ashtu siç haset dhe grafiku përditësohet menjëherë për të pasqyruar llogaritjen e re. Kjo lejon përdorim më efikas të kujtesës, pasi vetëm pjeset e nevojshme të grafikut duhet të mbahen në memorie në çdo kohë të caktuar.

Grafikët dinamikë të llogaritjes janë veçanërisht të dobishëm në mësimin e thellë, ku struktura e modelit mund të ndryshojë në varësi të të dhënave hyrëse. Me një grafik llogaritje dinamike, modeli mund të përshtatet menjëherë për të trajtuar madhësi dhe forma të ndryshme të hyrjes, pa kërkuar që të përcaktohet një grafik i veçantë për secilin rast.

PyTorch është i njohur për grafikun e tij dinamik të llogaritjes, i cili lejon fleksibilitet më të madh dhe korrigjim më të lehtë sesa grafikët e llogaritjes statike të përdorura në bibliotekat e tjera. Kjo e bën PyTorch një zgjedhje popullore në mesin e studiuesve që duhet të eksperimentojnë me arkitektura të ndryshme modelesh dhe metoda trajnimi.

Pandat, NumPy dhe SciPy

Pandat dhe NumPy janë të dyja bibliotekat Python që përdoren zakonisht për analizën dhe manipulimin e të dhënave. Ndërsa ka disa mbivendosje në funksionalitetin e tyre, ato shërbejnë për qëllime të ndryshme dhe kanë disa dallime të dallueshme.

NumPy, shkurt për "Numerical Python", është një bibliotekë themelore për llogaritjen shkencore në Python. Ajo ofron zbatime efikase dhe të optimizuara të operacioneve të grupeve dhe operacioneve të algjebrës lineare, duke e bërë atë veçanërisht të veçantë. të dobishme për llogaritjet numerike. Struktura primare e të dhënave të NumPy është ndarray (vargu N-dimensionale), i cili është një përmbledhje homogjene elementësh, zakonisht numra, me një madhësi dhe formë fikse. NumPy gjithashtu ofron një varg funksionesh për të punuar me këto grupe, duke përfshirë indeksimin, prerjen, riformësimin dhe grumbullimin.

Pandas, nga ana tjetër, është një bibliotekë e nivelit më të lartë e ndërtuar në krye të NumPy që ofron struktura të dhënash dhe mjete për të punuar me të dhëna të strukturuara. Ajo ofron dy klasa primare: DataFrame, të cilat përfaqëson një tabelë dydimensionale të dhënash dhe Series, e cila përfaqëson një grup të dhënash njëdimensionale me etiketa. Pandat ofron një gamë të gjerë funksionesh për manipulimin, pastrimin, bashkimin dhe riformimin e të dhënave, duke përfshirë funksionet për grupimin, grumbullimin dhe grumbullimin e të dhënave.Ka gjithashtu funksione për leximin dhe shkrimin e të dhënave nga formate të ndryshme skedarësh, duke përfshirë bazat e të dhënave CSV, Excel dhe SQL.

Scipy (Scientific Python) është një bibliotekë Python për llogaritjen shkencore dhe llogaritjen teknike. Ajo ndërtohet në krye të NumPy dhe ofron funksione shtesë për një gamë të gjerë aplikacionesh shkencore dhe inxhinierike.

Në përmbledhje, ndërsa NumPy ofron një zbatim efikas të operacioneve numerike të nivelit të ulët, Pandas ofron struktura dhe funksione të të dhënave të nivelit më të lartë, miqësore për përdoruesit për të punuar me të dhëna të strukturuara. Të dy bibliotekat përdoren gjerësisht në shkencën e të dhënave dhe aplikacionet e mësimit të makinerive dhe shpesh përdoren së bashku në tubacionet e analizës së të dhënave.

T-Test dhe Z-Test

Të dy testet t dhe z-testi janë teste hipotezash statistikore që përdoren për të përcaktuar nëse mesatarja e kampionit është dukshëm e ndryshme nga mesatarja e popullsisë. Megjithatë, ato ndryshojnë në supozimet e tyre rreth variancës së popullatës dhe madhësisë së kampionit.

Një z-test supozon se varianca e popullatës është e njohur, ose mund të vlerësohet me saktësi, dhe se madhësia e kampionit është mjaft e madhe (zakonisht, n › 30). Në të kundërt, njët-test nuk supozon se varianca e popullatës është e njohur, por e vlerëson atë nga varianca e mostrës dhe mund të përdoret për madhësi më të vogla të mostrës.

Këtu është një përmbledhje e shkurtër e dy testeve:

Testi Z:

Supozon se varianca e popullsisë është e njohur ose e vlerësuar.
Madhësia e kampionit duhet të jetë më e madhe se 30.
Ai përdor shpërndarjen standarde normale (z-shpërndarja) për të llogaritur statistikën e testit.
Hipoteza zero testohet kundër një hipoteze alternative me dy ose një bisht.
Përdoret për testimin e vlerave mesatare të një kampioni të madh të nxjerrë nga një popullatë e shpërndarë normalisht.

T-test:

Supozon se varianca e popullsisë është e panjohur dhe vlerësohet nga kampioni.
Madhësia e kampionit duhet të jetë më e vogël se 30 (ose n ‹ 30).
Ai përdor shpërndarjen t për të llogaritur statistikën e testit.
Hipoteza zero testohet kundrejt një hipoteze alternative me dy ose një bisht.
Përdoret për testimin e vlerave mesatare të një kampioni të vogël të nxjerrë nga një popullatë e shpërndarë normalisht.

Në përmbledhje, ndërsa të dyja testet t dhe z-test përdoren për të testuar hipotezat rreth mesatares së popullsisë, zgjedhja midis të dyjave varet nga madhësia e kampionit, njohuria rreth variancës së popullsisë dhe forma e shpërndarjes së popullsisë. /strong>

Regresioni logjistik

Hyrje:

Zbatimi:
https://medium.com/@shuv.sdr/logistic-regression-in-python-5e516a5cec1d

Kufizimet:
Regresioni logjistik është një metodë statistikore popullore e përdorur për detyrat e klasifikimit binar. Megjithë përdorimin dhe dobinë e tij të gjerë, ai ka disa kufizime, të cilat përfshijnë:

  1. Supozimi i linearitetit: Regresioni logjistik supozon se marrëdhënia midis variablave të pavarur dhe ndryshores së varur është lineare. Nëse marrëdhënia nuk është lineare, modeli mund të mos përshtatet mirë me të dhënat, duke çuar në parashikime të pasakta.
  2. Supozimi i pavarësisë së gabimeve: Regresioni logjistik supozon se gabimet janë të pavarura nga njëra-tjetra. Me fjalë të tjera, gabimi për një vëzhgim nuk duhet të lidhet me gabimin e një vëzhgimi tjetër. Nëse ky supozim shkelet, modeli mund të mos përshtatet mirë me të dhënat, duke çuar në parashikime të pasakta.
  3. Multikolineariteti: Multikolineariteti ndodh kur dy ose më shumë variabla të pavarur në një model të regresionit logjistik janë shumë të lidhura. Kjo mund të çojë në gabime standarde të fryra, duke e bërë të vështirë përcaktimin se cilët variabla janë të rëndësishëm.
  4. Outliers: Outliers janë vlera ekstreme që nuk janë përfaqësuese të pjesës tjetër të të dhënave. Regresioni logjistik është i ndjeshëm ndaj vlerave të jashtme, dhe prania e pikave të jashtme mund të ndikojë në rezultatet e analizës.
  5. Marrëdhëniet jolineare: Regresioni logjistik supozon se marrëdhënia ndërmjet ndryshoreve të pavarura dhe ndryshores së varur është monotone. Me fjalë të tjera, me rritjen e vlerës së ndryshores së pavarur, rritet ose zvogëlohet edhe probabiliteti i variablit të varur. Nëse ky supozim shkelet, modeli mund të mos përshtatet mirë me të dhënat.
  6. Të dhëna të çekuilibruara: Nëse klasat në grupin e të dhënave janë të çekuilibruara, që do të thotë se njëra klasë ka dukshëm më shumë vëzhgime se tjetra, regresioni logjistik mund të mos funksionojë mirë. Kjo është për shkak se modeli mund të jetë i njëanshëm ndaj klasës së shumicës, duke çuar në parashikime të pasakta për klasën e pakicës.
  7. Mbipërshtatja: Mbipërshtatja ndodh kur modeli është shumë kompleks dhe përshtatet me zhurmën në të dhëna dhe jo me marrëdhënien themelore midis variablave të pavarur dhe ndryshores së varur. Kjo mund të çojë në performancë të dobët në të dhënat e reja.

XGBoost

XGBoost është një algoritëm i fuqishëm i mësimit të makinerive që përdoret gjerësisht për problemet e regresionit dhe klasifikimit. Ai qëndron për "Nxitjen ekstreme të gradientit" dhe është një metodë e të mësuarit të ansamblit që kombinon modele të shumta të dobëta për të krijuar një model të fortë. XGBoost është një zgjerim i algoritmit të rritjes së gradientit dhe është i njohur për shpejtësinë, saktësinë dhe shkallëzueshmërinë e tij.

Karakteristikat kryesore të XGBoost janë:

  1. Rritja e gradientit: XGBoost përdor rritjen e gradientit për të përmirësuar performancën e modelit. Ai përfshin kombinimin e modeleve të shumta të dobëta (pemët e vendimit) për të krijuar një model të fortë që mund të bëjë parashikime të sakta.
  2. Rregullimi: XGBoost përfshin teknika rregullimi për të parandaluar mbipërshtatjen, të tilla si rregullimi L1 (Lasso) dhe L2 (Ridge).
  3. Trajtimi i vlerave që mungojnë: XGBoost mund të trajtojë vlerat që mungojnë në grupin e të dhënave duke i caktuar ato automatikisht në nyjen më të përshtatshme gjatë procesit të ndërtimit të pemës.
  4. Përpunimi paralel: XGBoost mund të përdorë përpunimin paralel për të përshpejtuar procesin e trajnimit të modelit, duke e bërë atë më të shkallëzuar dhe efikas.
  5. Rëndësia e veçorive: XGBoost ofron një mënyrë për të llogaritur rëndësinë relative të secilit veçori në grupin e të dhënave, duke ju lejuar të identifikoni veçoritë më të rëndësishme për të bërë parashikime.
  6. Ndalimi i hershëm: XGBoost përdor ndalimin e hershëm për të parandaluar mbivendosjen. Ndalon procesin e trajnimit të modelit nëse performanca e modelit nuk përmirësohet pas një numri të caktuar përsëritjesh.

XGBoost është përdorur në një gamë të gjerë aplikacionesh, të tilla si parashikimi i çmimeve të aksioneve, zbulimi i mashtrimit dhe klasifikimi i imazheve. Aftësia e tij për të trajtuar grupe të mëdha të dhënash dhe saktësia e tij e bëjnë atë një zgjedhje popullore midis shkencëtarëve të të dhënave dhe praktikuesve të mësimit të makinerive.