Hapi 3 i parapërpunimit të të dhënave

Pjesa 1: Përzgjedhja e veçorive

Reduktimi i dimensioneve (DR) është kryer bazuar në dy metoda kryesore, të cilat janë përzgjedhja e veçorive (FS) dhe nxjerrja e veçorive (FE).

Reduktimi i grupeve të të dhënave me dimensione të larta në një grup të dhënash me dimensione të ulëta me anë të filtrit ose heqja e informacionit të tepërt dhe zhurmës është një metodë për të zgjidhur këtë problem dhe kjo njihet si reduktimi i dimensionalitetit.

Përparësitë e reduktimit të dimensioneve:

  1. Eliminimi i modeleve të parëndësishme, të tepërta dhe të dhënave të zhurmshme
  2. Zvogëloni kohën dhe sasinë e memories që kërkohet për përpunimin e të dhënave
  3. Cilësia e të dhënave do të përmirësohet.
  4. Algoritmi do të funksionojë me efikasitet, do të arrijë saktësi më të mirë.
  5. Ulja e kostos së llogaritjes, përmirësimi i vizualizimit të dimensioneve.

Dallimi midis reduktimit të dimensioneve dhe zgjedhjes së veçorive:

  • Zgjedhja e veçorive zgjidhni veçori për të mbajtur ose hequr nga grupi i të dhënave,
  • Reduktimi i dimensioneve krijon një projeksion të të dhënave që rezulton në veçori krejtësisht të reja hyrëse.

Zgjedhja e veçorive

  • Ndërtoni një nëngrup funksionesh sa më të vogla që të jetë e mundur, por që përfaqëson të gjithë funksionin jetësor të të dhënave hyrëse.
  • Informacioni mund të humbet pasi disa veçori duhet të përjashtohen kur procesi i zgjedhjes së nëngrupit të veçorive duke bërë këtë informacion mund të reduktohet.

Pa mbikëqyrje: mos përdorni ndryshore dalëse

  • korrelacioni

Mbikqyrur:ne kemi dhe përdorim variabla të daljes,

Metodat e mbikëqyrura janë Filter, Wrapper, Embedded.

Filtro

  • Metodat e përzgjedhjes së veçorive të bazuara në filtra përdorin masa statistikore për të vlerësuar korrelacionin ose varësinë midis variablave hyrëse që mund të filtrohen për të zgjedhur veçoritë më të rëndësishme
  • Kjo metodë përdor teknika statistikore për të vlerësuar marrëdhënien midis çdo ndryshoreje hyrëse dhe variablit të synuar, dhe këto rezultate përdoren si bazë për të zgjedhur (filtruar) ato variabla hyrëse që do të përdoren në model.

teknikat e metodës së filtrimit

  • Fitimi i informacionit
  • Testi Chi-katror
  • Rezultati i Fisher
  • raporti i vlerës që mungon

mbështjellës

  • Metodat e përzgjedhjes së veçorive të mbështjellësit krijojnë shumë modele me nëngrupe të ndryshme të veçorive hyrëse dhe zgjedhin ato veçori që rezultojnë në modelin me performancën më të mirë sipas një metrike të performancës.

Teknikat e metodës së mbështjelljes:

  • përzgjedhja përpara
  • eliminimi i prapambetur
  • Zgjedhja e plotë e veçorive
  • Eliminimi i veçorive rekursive
  • algoritme gjenetike

Të ngulitura

  • kombinimi i të dy metodave Filter dhe wrapper.
  • ato krijojnë nëngrupin më të mirë të veçorive
  • pak algoritme që kryejnë automatikisht përzgjedhjen e veçorive si pjesë e mësimit të modelit.

Teknikat e metodave të ngulitura

  • Modeli i regresionit të penalizuar, Rregullimi, L1 (Lasso), L2 (kreshtë), rrjeta elastike (L1 + L2)
  • pemë vendimi
  • ansamblet e pemës së vendimit, pyll i rastësishëm.

Statistikat e përzgjedhjes së veçorive

Hyrja numerike, prodhimi numerik:problemi i modelimit parashikues të regresionit

  • Koeficienti i korrelacionit të Pearson (Linear)
  • Koeficienti i gradës së Spearman (jo linear)

Hyrja numerike, prodhimi kategorik: problemi i modelimit parashikues të klasifikimit

  • Koeficienti i korrelacionit ANOVA (Linear)
  • Koeficienti i gradës së Kendall (jo linear)

Hyrja kategorike, prodhimi numerik: problemi i modelimit parashikues të regresionit

  • ne mund të përdorim të njëjtat metoda "Hyrje numerike, dalje kategorike", por në të kundërt.

Inputi kategorik, prodhimi kategorik:problemi i modelimit parashikues të klasifikimit

  • Testi Chi-Squared (tabelat e kontigjencës).
  • Informacioni i ndërsjellë (fitimi i informacionit) - teoria e informacionit.

Referenca:

  1. Letër: Një përmbledhje gjithëpërfshirëse e teknikave të reduktimit të dimensioneve për përzgjedhjen e veçorive dhe nxjerrjen e veçorive nga revista e tendencave të shkencës dhe teknologjisë së aplikuar.
  2. https://elearn.daffodilvarsity.edu.bd/pluginfile.php/1225702/mod_label/intro/Feature%20Selection%20with%20numerical%20and%20categorical%20data.pdf
  3. https://vitalflux.com/machine-learning-feature-selection-feature-extraction/