Çfarë është grupi?

Një grup është koleksioni i objekteve që janë "të ngjashëm" midis tyre dhe janë "të pangjashëm" me objektet që u përkasin grupimeve të tjera.

Grumbullimi mund të konsiderohet problemi më i rëndësishëm i të nxënit të pambikëqyrur; Pra, si çdo problem tjetër i këtij lloji, ai ka të bëjë me gjetjen e një strukture në një koleksion të dhënash të paetiketuara

K Do të thotë të punosh

  1. Së pari përcaktoni k ku k është numri i grupimeve
  2. Zgjidh rastësisht k centroid
  3. Matni distancën midis secilës pikë dhe qendrës
  4. Shtoni pikë në grupimin që ka distancën më të ulët nga qendra dhe llogarisni qendrën e re duke marrë mesataren atematike.
  5. Përsëritni hapin 3 dhe 4 derisa qendra të stabilizohet

Sfida me k do të thotë që ju duhet t'i tregoni se sa grupe prisni. Nuk mund të mësojë numrin e grupit nga të dhënat. Për shembull, nëse kërkojmë k do të thotë të formojë 5 grupime, ai do të vazhdojë me kënaqësi dhe do të gjejë gjashtë grupimet më të mira.

Zgjedhja e numrit të grupimeve

1.Analiza e siluetit mbi grupimin e mjeteve të KM:

Rezultati i siluetit përdoret për të vlerësuar cilësinë e grupimit të krijuar duke përdorur algoritmin e grupimit, si p.sh. k mjete. Për të llogaritur rezultatin e Silhouette për çdo vëzhgim ose pikë të dhënash, distancat e mëposhtme duhet të gjenden për çdo vëzhgim që u përket të gjitha grupimeve:

1. Distanca mesatare midis vëzhgimit dhe të gjitha pikave të tjera të të dhënave në të njëjtin grup. Kjo distancë mund të quhet gjithashtu një distancë mesatare brenda grupimeve. Distanca mesatare shënohet me a.

2. Distanca mesatare midis vëzhgimit dhe të gjitha pikave të tjera të të dhënave të grupit të ardhshëm më të afërt. Kjo distancë mund të quhet gjithashtu një distancë mesatare më e afërt e grupimit. Distanca mesatare shënohet me b.

Rezultati i siluetës = (b-a)/max(a,b)
ku
a= distanca mesatare ndërmjet secilës pikë brenda një grupi.
b= distanca mesatare ndërmjet të gjitha grupimeve.

Rezultati i siluetit është nga -1 në 1.
Nëse rezultati i siluetës është më afër:
1 : Mostra është shumë larg grupimeve fqinje
0 : Mostra është në ose shumë afër vendimit kufiri midis dy grupimeve fqinje
-1: Mostrat mund t'i jenë caktuar grupit të gabuar.

2. Metoda e bërrylit:

Funksioni i kostos është k do të thotë është dhënë nga

që është shuma e katrorëve të distancës ndërmjet pikave të të dhënave dhe qendrës përkatëse të grupimit të cilit i përket pika e të dhënave.

Nëse grafikojmë koston kundrejt numrit të grupimeve, pika ku është formuar struktura e ngjashme me bërrylin zgjidhet si numri optimal i grupimit. Në figurën më poshtë, numri optimal i grupit është 5

Një tjetër disavantazh i K mean është se është i ndjeshëm ndaj inicializimit të centroidit. Nëse inicializojmë centroidin larg ose më të jashtëm, atëherë ekziston mundësia që të mos ketë pikë në grup. Gjithashtu nëse ne Centroids mund të inicializohen në të njëjtin grup duke rezultuar në grupim të dobët. Për ta kapërcyer këtë ne përdorim k mjete ++ për inicializimin më të zgjuar të centroidit që përmirëson cilësinë e centroidit.

"Shikoni këtë video të kursit për të kuptuar K do të thotë ++"

Faleminderit..