Përpara se të trajtojmë se si bëhet grumbullimi i thuprës, le të përcaktojmë së pari grupëzimi.

Grupimi është një detyrë e pambikëqyrur e mësimit të makinerive.Algoritmet e grupimitmund të njohin automatikisht modelin brenda të dhënave në mënyrë që të analizojnë të dhënat e mbledhura pa etiketat e tyre. Grumbullimi kërkon konceptin e një metrike. Këto algoritme zbatojnë supozimin e drejtpërdrejtë që të dhëna të ngjashme i përkasin të njëjtës klasë.

Në analizën e grupimeve, nuk bëhet asnjë supozim për numrin e klasave dhe strukturën e tyre (shpërndarja statistikore); përkundrazi, numri i klasave mund të përcaktohet nga rezultati i analizës.

Tani që e dini se si funksionon grupimi, ne tani trajtojmë algoritmet e grupimit që do të shihni në realitet dhe një prej tyre është Grupëzimi BIRCH.

Reduktimi dhe grupimi i balancuar përsëritës duke përdorur hierarkitë (BIRCH)

Përkufizim

BIRCH është një algoritëm grupimi që mund të grumbullojë grupe të dhënash të mëdha duke gjeneruar fillimisht një përmbledhje të vogël dhe kompakte të grupit të madh të të dhënave që ruan sa më shumë informacion që të jetë e mundur. BIRCH është shumë i dobishëm për shkak të zbatimit të tij të lehtë.

Përparësitë e grumbullimit të thuprës

  • Është lokale në atë që çdo vendim grupimi merret pa skanuar të gjitha pikat e të dhënave dhe grupimet ekzistuese.
  • Ai shfrytëzon vëzhgimin se hapësira e të dhënave zakonisht nuk është e zënë në mënyrë uniforme dhe jo çdo pikë e të dhënave është po aq e rëndësishme.
  • Përdor memorien e disponueshme për të nxjerrë nën-grupet më të mira të mundshme duke minimizuar kostot hyrëse/dalëse.
  • Është gjithashtu një metodë në rritje që nuk kërkon të gjithë grupin e të dhënave paraprakisht.

BIRCH është një metodë e shkallëzueshme e grupimit e bazuar në grupimin hierarkik dhe kërkon vetëm një skanim një herë të të dhënave, duke e bërë atë të shpejtë për të punuar me grupe të mëdha të dhënash. Janë kryesisht katër faza të cilat ndiqen nga algoritmi i BIRCH.

Në këto katër faza, dy prej tyre (ndryshimi i madhësisë së të dhënave dhe grupet e rafinimit) janë opsionale. Ato vijnë në proces kur kërkohet më shumë qartësi. Por skanimi i të dhënave është njësoj si ngarkimi i të dhënave në një model. Pas ngarkimit të të dhënave, algoritmi skanon të gjitha të dhënat dhe i vendos ato në pemët CF. Në kondensim, ai rivendos dhe ndryshon madhësinë e të dhënave për përshtatje më të mirë në pemën CF. Në grupimin global, ai dërgon pemë CF për grupim duke përdorur algoritmet ekzistuese të grupimit. Së fundi, rafinimi rregullon problemin e pemëve CF ku të njëjtat pika me vlerë u caktohen nyjeve të ndryshme të gjetheve.

Zbatimi i BIRCH Clustering duke përdorur Python dhe Chateau Winery

Algoritmi BIRCH me grupime të përcaktuara

  1. Importoni bibliotekat/paketat e kërkuara. Scikit Learn ofron modulin për zbatimin e drejtpërdrejtë të BIRCH nën paketat e klasës së grupit.

2. Lexoni të dhënat përmes pd.read_csv në të dhënat e verës. Përcaktoni dimensionet duke përdorur formëndhe rezultati përmban 63 rreshta (një për çdo klient) dhe tre kolona (emri të klientit, blerjet e tyre të Pinot Noir dhe blerjet e tyre të shampanjës).

3. Krijoni një grafik shpërndarjeje me të dhëna. Pozicioni i secilës pikë në boshtin horizontal dhe vertikal tregon vlerat për një pikë individuale të të dhënave. Grafikët e shpërndarjes përdoren për të vëzhguar marrëdhëniet midis variablave.

4. Përcaktoni grupimet. Dendrogrami përdoret për të përcaktuar grupimet dhe përmes tij mund të shohim se ka 3 grupime të mundshme. Numri i grupimeve do të jetë numri i vijave vertikale të cilat priten nga vija e vizatuar duke përdorur pragun.

5. Gjenerimi i një grupi të dhënash duke përdorur make blobs. Ne përdorim scikit-learn për të gjeneruar të dhëna me grupime të përcaktuara mirë.

6. Tjetra është inicializimi dhe trajnimi i modelit.

7. Parashikoni metodën për të marrë një listë pikash dhe grupin e tyre përkatës.

8. Vizatoni pikat e të dhënave duke përdorur një ngjyrë të ndryshme për çdo grup.

BIRCH Model pa grupime të përcaktuara

  1. Krijo një model BIRCH dhe më pas vendos grupin e të dhënave në model.

2. Krijoni një parashikim të grupit të të dhënave duke përdorur modelin e krijuar.

3. Bërja e grafikut të shpërndarjes për të kontrolluar rezultatet.

Këtu në dalje, ne mund të shohim se kemi krijuar 10 grupime të mostrave të krijuara rastësisht duke përdorur make blob, dhe mund të shohim se algoritmi po funksionon mirë. Tipari kryesor i përdorimit të BIRCH është tipari i saj i pemës CF. Është një algoritëm i mirë me avantazhet e një skanimi të vetëm, dhe gjithashtu, veçoria e pemës CF rrit cilësinë e grupimeve.

Grupi i të dhënave të përdorura: wine_data.csv

Referencat:

  • "Shembull i algoritmit të grumbullimit të BIRCH në Python"
  • ML | Grumbullimi i thuprës
  • "Dokumentacioni në sklearn.cluster.Birch"
  • "Udhëzues për algoritmin e grupimit BIRCH"