Prezantimi

Tregu i banesave në Miami është i gjallë dhe dinamik, duke e bërë atë një zonë interesante për analizën e të dhënave. Në këtë tutorial, ne do t'ju udhëzojmë përmes një procesi hap pas hapi të pastrimit dhe analizimit të të dhënave të Miami Housing duke përdorur RapidMiner, një platformë e fuqishme e shkencës së të dhënave.

Të dhënat tona të të dhënave, "Miami Housing Data", përmban informacione rreth çmimeve të banesave, vendndodhjeve dhe veçorive. Ne do të demonstrojmë se si të përdorim RapidMiner për të përgatitur të dhënat, për të ndërtuar një model parashikues për çmimet e banesave dhe për ta vendosur atë për analiza në kohë reale.

Parakushtet

  1. Një llogari Kaggle (për t'u regjistruar falas)
  2. RapidMiner Studio (versioni falas i disponueshëm)

Hapi 1: Shkarkoni grupin e të dhënave

  1. Hyni në llogarinë tuaj Kaggle.
  2. Shkoni te faqja e të dhënave "Miami Housing Data".
  3. Klikoni "Shkarko" për të shkarkuar grupin e të dhënave si skedar CSV.

Ky hap siguron që ju të keni të dhënat e kërkuara për analizën.

Hapi 2: Importoni grupin e të dhënave në RapidMiner

  1. Hapni RapidMiner Studio.
  2. Klikoni "Importoni të dhënat" dhe zgjidhni "Lexo CSV".
  3. Shfletoni në vendndodhjen e grupit të të dhënave të shkarkuar dhe klikoni "Open".
  4. Në dritaren "Konfiguro importimin e CSV", rishikoni cilësimet e importimit të të dhënave dhe klikoni "Finish".

Importimi i të dhënave në RapidMiner ju lejon të aksesoni dhe manipuloni atë brenda platformës.

Hapi 3: Pastrimi i të dhënave

Hiq kolonat e parëndësishme

  1. Në panelin "Operatorët", kërkoni për "Zgjidhni atributet" dhe tërhiqeni atë në panelin "Procesi".
  2. Lidhni daljen e "Lexo CSV" me hyrjen e "Zgjidh atributet".
  3. Në panelin "Parametrat", zgjidhni llojin dhe vendoseni që të përjashtojë atributet dhe tipin e filtrit të atributeve në "një nënbashkësi" dhe klikoni butonin "Zgjidh nëngrupin".
  4. Zgjidhni kolonat përkatëse për të përjashtuar (Nr i parcelës në këtë rast) dhe klikoni "OK".

Heqja e kolonave të parëndësishme thjeshton grupin e të dhënave, duke e bërë më të lehtë punën dhe analizimin me të.

Trajto vlerat që mungojnë

  1. Kërkoni "Zëvendësoni vlerat që mungojnë" në panelin "Operatorët" dhe tërhiqeni atë në panelin "Procesi".
  2. Lidhni daljen e "Select Atributes" me hyrjen e "Replace Missing Values".
  3. Në panelin "Parametrat", zgjidhni strategjinë e duhur të zëvendësimit (p.sh., "Mesatar" ose "Vlera").

Trajtimi i vlerave që mungojnë siguron që të dhënat të jenë të qëndrueshme dhe parandalon gabimet gjatë analizës.

Ndiqni këto hapa për të vendosur atributin e etiketës:

  1. Në panelin "Operatorët", kërkoni për "Set Role" dhe tërhiqeni atë në panelin "Process".
  2. Vendosni operatorin "Set Role" pas operatorit "Replace Missing Values" dhe përpara operatorit "Split Data".
  3. Lidhni daljen e "Replace Missing Values" me hyrjen e "Set Role".
  4. Në panelin "Parametrat" ​​të operatorit "Set Role", klikoni në menunë rënëse "atribute_name" dhe zgjidhni atributin që dëshironi të parashikoni (p.sh., "çmimi" për parashikimin e çmimeve të banesave).
  5. Cakto parametrin "target_role" në "etiketë".

Hapi 4: Ndani të dhënat

  1. Kërkoni "Split Data" në panelin "Operators" dhe tërhiqeni atë në panelin "Process".
  2. Lidhni daljen e "Set Role" me hyrjen e "Split Data".
  3. Në panelin "ndarje", vendosni "raportin" në 0.7 dhe 0.3 (Shto hyrjen dy herë) për një ndarje 70–30 të testit të trenit.

Ndarja e të dhënave në grupe trajnimi dhe testimi ju lejon të ndërtoni një model në një nëngrup dhe të vlerësoni performancën e tij në një tjetër, duke u siguruar që ai të përgjithësohet mirë.

Hapi 5: Ndërtoni dhe trajnoni modelin

  1. Në panelin "Operatorët", kërkoni për "Regresion linear" dhe tërhiqeni atë në panelin "Procesi".
  2. Lidhni daljen e të dhënave të ndarë në hyrjen e regresionit linear
  3. Për detyrat e regresionit, mund të përdorni kritere si gabimi mesatar në katror (MSE), gabimi mesatar në katror (RMSE) ose gabimi mesatar absolut (MAE).

Ndërtimi dhe trajnimi i modelit duke përdorur një algoritëm të mësimit të makinës ju ndihmon të identifikoni modelet në të dhëna dhe të bëni parashikime.

6: Vlerësoni modelin

  1. Kërkoni "Aplikoni modelin" në panelin "Operatorët" dhe tërhiqeni atë në panelin "Procesi".
  2. Lidhni daljen e algoritmit të zgjedhur me hyrjen e parë të "Apply Model" dhe daljen e dytë të "Split Data" me hyrjen e dytë të "Apply Model".
  3. Në panelin "Operatorët", kërkoni për "Performancë" dhe tërhiqeni atë në panelin "Procesi".
  4. Lidhni daljen e parë të "Apply Model" me hyrjen e parë të "Performance" dhe daljen e dytë të "Apply Model" me hyrjen e dytë të "Performance".

Vlerësimi i modelit ju lejon të matni performancën dhe saktësinë e tij, duke ju ndihmuar të identifikoni fushat për përmirësim.

Për të ekzekutuar: Lidhni daljen e Apply Model me Output dhe ekzekutoni atë

E RËNDËSISHME:

lidhni të gjitha rezultatet e Modelit Apliko me të dyja përgjigjet dhe mund të shihni metrikën:

Hapi 7: Optimizoni modelin (opsionale)

  1. Në panelin "Operatorët", kërkoni për "Optimize Parametrat" ​​dhe tërhiqeni atë në panelin "Procesi".
  2. Lidhni daljen e "Split Data" me hyrjen e "Optimize Parameters".
  3. Konfiguro cilësimet e optimizimit të parametrave, duke përfshirë algoritmin, hapësirën e kërkimit dhe kriterin e performancës.
  4. Ekzekutoni procesin e optimizimit për të gjetur grupin më të mirë të parametrave për modelin tuaj.

Optimizimi i modelit ju ndihmon të rregulloni mirë performancën e tij duke gjetur grupin më të mirë të parametrave.

Hapi 8: Vendosni modelin

  1. Në panelin "Operatorët", kërkoni për "Dyqani" dhe tërhiqeni atë në panelin "Procesi".
  2. Lidhni daljen e algoritmit të zgjedhur me hyrjen e "Store".
  3. Në panelin "Parametrat", specifikoni vendndodhjen dhe emrin e depove për modelin tuaj.
  4. Ruani procesin dhe ekzekutoni atë për të ruajtur modelin në depon e specifikuar.

Përdorimi i modelit ju lejon ta integroni atë në sistemet në kohë reale për analiza dhe parashikime.

konkluzioni

Në këtë tutorial, ne kaluam procesin e pastrimit, analizimit dhe vendosjes së të dhënave të Miami Housing duke përdorur RapidMiner. Duke ndjekur këto hapa, ju mund të fitoni njohuri të vlefshme për tregun e banesave, të ndërtoni modele parashikuese dhe të përmirësoni procesin tuaj të vendimmarrjes të drejtuar nga të dhënat.