Zhbllokimi i tregut të banesave në Miami me RapidMiner: Një udhëzues gjithëpërfshirës për pastrimin e të dhënave…

Prezantimi

Tregu i banesave në Miami është i gjallë dhe dinamik, duke e bërë atë një zonë interesante për analizën e të dhënave. Në këtë tutorial, ne do t'ju udhëzojmë përmes një procesi hap pas hapi të pastrimit dhe analizimit të të dhënave të Miami Housing duke përdorur RapidMiner, një platformë e fuqishme e shkencës së të dhënave.

Të dhënat tona të të dhënave, "Miami Housing Data", përmban informacione rreth çmimeve të banesave, vendndodhjeve dhe veçorive. Ne do të demonstrojmë se si të përdorim RapidMiner për të përgatitur të dhënat, për të ndërtuar një model parashikues për çmimet e banesave dhe për ta vendosur atë për analiza në kohë reale.

Parakushtet

Një llogari Kaggle (për t'u regjistruar falas)
RapidMiner Studio (versioni falas i disponueshëm)

Hapi 1: Shkarkoni grupin e të dhënave

Hyni në llogarinë tuaj Kaggle.
Shkoni te faqja e të dhënave "Miami Housing Data".
Klikoni "Shkarko" për të shkarkuar grupin e të dhënave si skedar CSV.

Ky hap siguron që ju të keni të dhënat e kërkuara për analizën.

Hapi 2: Importoni grupin e të dhënave në RapidMiner

Hapni RapidMiner Studio.
Klikoni "Importoni të dhënat" dhe zgjidhni "Lexo CSV".
Shfletoni në vendndodhjen e grupit të të dhënave të shkarkuar dhe klikoni "Open".
Në dritaren "Konfiguro importimin e CSV", rishikoni cilësimet e importimit të të dhënave dhe klikoni "Finish".

Importimi i të dhënave në RapidMiner ju lejon të aksesoni dhe manipuloni atë brenda platformës.

Hapi 3: Pastrimi i të dhënave

Hiq kolonat e parëndësishme

Në panelin "Operatorët", kërkoni për "Zgjidhni atributet" dhe tërhiqeni atë në panelin "Procesi".
Lidhni daljen e "Lexo CSV" me hyrjen e "Zgjidh atributet".
Në panelin "Parametrat", zgjidhni llojin dhe vendoseni që të përjashtojë atributet dhe tipin e filtrit të atributeve në "një nënbashkësi" dhe klikoni butonin "Zgjidh nëngrupin".
Zgjidhni kolonat përkatëse për të përjashtuar (Nr i parcelës në këtë rast) dhe klikoni "OK".

Heqja e kolonave të parëndësishme thjeshton grupin e të dhënave, duke e bërë më të lehtë punën dhe analizimin me të.

Trajto vlerat që mungojnë

Kërkoni "Zëvendësoni vlerat që mungojnë" në panelin "Operatorët" dhe tërhiqeni atë në panelin "Procesi".
Lidhni daljen e "Select Atributes" me hyrjen e "Replace Missing Values".
Në panelin "Parametrat", zgjidhni strategjinë e duhur të zëvendësimit (p.sh., "Mesatar" ose "Vlera").

Trajtimi i vlerave që mungojnë siguron që të dhënat të jenë të qëndrueshme dhe parandalon gabimet gjatë analizës.

Ndiqni këto hapa për të vendosur atributin e etiketës:

Në panelin "Operatorët", kërkoni për "Set Role" dhe tërhiqeni atë në panelin "Process".
Vendosni operatorin "Set Role" pas operatorit "Replace Missing Values" dhe përpara operatorit "Split Data".
Lidhni daljen e "Replace Missing Values" me hyrjen e "Set Role".
Në panelin "Parametrat" të operatorit "Set Role", klikoni në menunë rënëse "atribute_name" dhe zgjidhni atributin që dëshironi të parashikoni (p.sh., "çmimi" për parashikimin e çmimeve të banesave).
Cakto parametrin "target_role" në "etiketë".

Hapi 4: Ndani të dhënat

Kërkoni "Split Data" në panelin "Operators" dhe tërhiqeni atë në panelin "Process".
Lidhni daljen e "Set Role" me hyrjen e "Split Data".
Në panelin "ndarje", vendosni "raportin" në 0.7 dhe 0.3 (Shto hyrjen dy herë) për një ndarje 70–30 të testit të trenit.

Ndarja e të dhënave në grupe trajnimi dhe testimi ju lejon të ndërtoni një model në një nëngrup dhe të vlerësoni performancën e tij në një tjetër, duke u siguruar që ai të përgjithësohet mirë.

Hapi 5: Ndërtoni dhe trajnoni modelin

Në panelin "Operatorët", kërkoni për "Regresion linear" dhe tërhiqeni atë në panelin "Procesi".
Lidhni daljen e të dhënave të ndarë në hyrjen e regresionit linear
Për detyrat e regresionit, mund të përdorni kritere si gabimi mesatar në katror (MSE), gabimi mesatar në katror (RMSE) ose gabimi mesatar absolut (MAE).

Ndërtimi dhe trajnimi i modelit duke përdorur një algoritëm të mësimit të makinës ju ndihmon të identifikoni modelet në të dhëna dhe të bëni parashikime.

6: Vlerësoni modelin

Kërkoni "Aplikoni modelin" në panelin "Operatorët" dhe tërhiqeni atë në panelin "Procesi".
Lidhni daljen e algoritmit të zgjedhur me hyrjen e parë të "Apply Model" dhe daljen e dytë të "Split Data" me hyrjen e dytë të "Apply Model".
Në panelin "Operatorët", kërkoni për "Performancë" dhe tërhiqeni atë në panelin "Procesi".
Lidhni daljen e parë të "Apply Model" me hyrjen e parë të "Performance" dhe daljen e dytë të "Apply Model" me hyrjen e dytë të "Performance".

Vlerësimi i modelit ju lejon të matni performancën dhe saktësinë e tij, duke ju ndihmuar të identifikoni fushat për përmirësim.

Për të ekzekutuar: Lidhni daljen e Apply Model me Output dhe ekzekutoni atë

E RËNDËSISHME:

lidhni të gjitha rezultatet e Modelit Apliko me të dyja përgjigjet dhe mund të shihni metrikën:

Hapi 7: Optimizoni modelin (opsionale)

Në panelin "Operatorët", kërkoni për "Optimize Parametrat" dhe tërhiqeni atë në panelin "Procesi".
Lidhni daljen e "Split Data" me hyrjen e "Optimize Parameters".
Konfiguro cilësimet e optimizimit të parametrave, duke përfshirë algoritmin, hapësirën e kërkimit dhe kriterin e performancës.
Ekzekutoni procesin e optimizimit për të gjetur grupin më të mirë të parametrave për modelin tuaj.

Optimizimi i modelit ju ndihmon të rregulloni mirë performancën e tij duke gjetur grupin më të mirë të parametrave.

Hapi 8: Vendosni modelin

Në panelin "Operatorët", kërkoni për "Dyqani" dhe tërhiqeni atë në panelin "Procesi".
Lidhni daljen e algoritmit të zgjedhur me hyrjen e "Store".
Në panelin "Parametrat", specifikoni vendndodhjen dhe emrin e depove për modelin tuaj.
Ruani procesin dhe ekzekutoni atë për të ruajtur modelin në depon e specifikuar.

Përdorimi i modelit ju lejon ta integroni atë në sistemet në kohë reale për analiza dhe parashikime.

konkluzioni

Në këtë tutorial, ne kaluam procesin e pastrimit, analizimit dhe vendosjes së të dhënave të Miami Housing duke përdorur RapidMiner. Duke ndjekur këto hapa, ju mund të fitoni njohuri të vlefshme për tregun e banesave, të ndërtoni modele parashikuese dhe të përmirësoni procesin tuaj të vendimmarrjes të drejtuar nga të dhënat.

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Software Engineering Programming Languages Front End Development Java Nodejs Algorithms Data Tech Computer Science Development HTML AWS CSS Neural Networks Angular ChatGPT Code Typescript Tutorial Python Programming Learning To Code Developer Computer Vision NLP Open Source Productivity Reactjs