Clustering 101: Kuptimi i grupimit BIRCH duke përdorur Jupyter Notebook & Python

Përpara se të trajtojmë se si bëhet grumbullimi i thuprës, le të përcaktojmë së pari grupëzimi.

Grupimi është një detyrë e pambikëqyrur e mësimit të makinerive.Algoritmet e grupimitmund të njohin automatikisht modelin brenda të dhënave në mënyrë që të analizojnë të dhënat e mbledhura pa etiketat e tyre. Grumbullimi kërkon konceptin e një metrike. Këto algoritme zbatojnë supozimin e drejtpërdrejtë që të dhëna të ngjashme i përkasin të njëjtës klasë.

Në analizën e grupimeve, nuk bëhet asnjë supozim për numrin e klasave dhe strukturën e tyre (shpërndarja statistikore); përkundrazi, numri i klasave mund të përcaktohet nga rezultati i analizës.

Tani që e dini se si funksionon grupimi, ne tani trajtojmë algoritmet e grupimit që do të shihni në realitet dhe një prej tyre është Grupëzimi BIRCH.

Reduktimi dhe grupimi i balancuar përsëritës duke përdorur hierarkitë (BIRCH)

Përkufizim

BIRCH është një algoritëm grupimi që mund të grumbullojë grupe të dhënash të mëdha duke gjeneruar fillimisht një përmbledhje të vogël dhe kompakte të grupit të madh të të dhënave që ruan sa më shumë informacion që të jetë e mundur. BIRCH është shumë i dobishëm për shkak të zbatimit të tij të lehtë.

Përparësitë e grumbullimit të thuprës

Është lokale në atë që çdo vendim grupimi merret pa skanuar të gjitha pikat e të dhënave dhe grupimet ekzistuese.
Ai shfrytëzon vëzhgimin se hapësira e të dhënave zakonisht nuk është e zënë në mënyrë uniforme dhe jo çdo pikë e të dhënave është po aq e rëndësishme.
Përdor memorien e disponueshme për të nxjerrë nën-grupet më të mira të mundshme duke minimizuar kostot hyrëse/dalëse.
Është gjithashtu një metodë në rritje që nuk kërkon të gjithë grupin e të dhënave paraprakisht.

BIRCH është një metodë e shkallëzueshme e grupimit e bazuar në grupimin hierarkik dhe kërkon vetëm një skanim një herë të të dhënave, duke e bërë atë të shpejtë për të punuar me grupe të mëdha të dhënash. Janë kryesisht katër faza të cilat ndiqen nga algoritmi i BIRCH.

Në këto katër faza, dy prej tyre (ndryshimi i madhësisë së të dhënave dhe grupet e rafinimit) janë opsionale. Ato vijnë në proces kur kërkohet më shumë qartësi. Por skanimi i të dhënave është njësoj si ngarkimi i të dhënave në një model. Pas ngarkimit të të dhënave, algoritmi skanon të gjitha të dhënat dhe i vendos ato në pemët CF. Në kondensim, ai rivendos dhe ndryshon madhësinë e të dhënave për përshtatje më të mirë në pemën CF. Në grupimin global, ai dërgon pemë CF për grupim duke përdorur algoritmet ekzistuese të grupimit. Së fundi, rafinimi rregullon problemin e pemëve CF ku të njëjtat pika me vlerë u caktohen nyjeve të ndryshme të gjetheve.

Zbatimi i BIRCH Clustering duke përdorur Python dhe Chateau Winery

Algoritmi BIRCH me grupime të përcaktuara

Importoni bibliotekat/paketat e kërkuara. Scikit Learn ofron modulin për zbatimin e drejtpërdrejtë të BIRCH nën paketat e klasës së grupit.

2. Lexoni të dhënat përmes pd.read_csv në të dhënat e verës. Përcaktoni dimensionet duke përdorur formëndhe rezultati përmban 63 rreshta (një për çdo klient) dhe tre kolona (emri të klientit, blerjet e tyre të Pinot Noir dhe blerjet e tyre të shampanjës).

3. Krijoni një grafik shpërndarjeje me të dhëna. Pozicioni i secilës pikë në boshtin horizontal dhe vertikal tregon vlerat për një pikë individuale të të dhënave. Grafikët e shpërndarjes përdoren për të vëzhguar marrëdhëniet midis variablave.

4. Përcaktoni grupimet. Dendrogrami përdoret për të përcaktuar grupimet dhe përmes tij mund të shohim se ka 3 grupime të mundshme. Numri i grupimeve do të jetë numri i vijave vertikale të cilat priten nga vija e vizatuar duke përdorur pragun.

5. Gjenerimi i një grupi të dhënash duke përdorur make blobs. Ne përdorim scikit-learn për të gjeneruar të dhëna me grupime të përcaktuara mirë.

6. Tjetra është inicializimi dhe trajnimi i modelit.

7. Parashikoni metodën për të marrë një listë pikash dhe grupin e tyre përkatës.

8. Vizatoni pikat e të dhënave duke përdorur një ngjyrë të ndryshme për çdo grup.

BIRCH Model pa grupime të përcaktuara

Krijo një model BIRCH dhe më pas vendos grupin e të dhënave në model.

2. Krijoni një parashikim të grupit të të dhënave duke përdorur modelin e krijuar.

3. Bërja e grafikut të shpërndarjes për të kontrolluar rezultatet.

Këtu në dalje, ne mund të shohim se kemi krijuar 10 grupime të mostrave të krijuara rastësisht duke përdorur make blob, dhe mund të shohim se algoritmi po funksionon mirë. Tipari kryesor i përdorimit të BIRCH është tipari i saj i pemës CF. Është një algoritëm i mirë me avantazhet e një skanimi të vetëm, dhe gjithashtu, veçoria e pemës CF rrit cilësinë e grupimeve.

Grupi i të dhënave të përdorura: wine_data.csv

Referencat:

"Shembull i algoritmit të grumbullimit të BIRCH në Python"
ML | Grumbullimi i thuprës
"Dokumentacioni në sklearn.cluster.Birch"
"Udhëzues për algoritmin e grupimit BIRCH"

Shiko gjithashtu:

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Programming Languages Software Engineering Java Nodejs Algorithms Front End Development Data Tech Computer Science Development AWS HTML CSS Neural Networks Angular ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Linear Regression