K-medoizi

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

K-medoizii este un algoritm de grupare de partiții legat de algoritmul K-means . Oferă ca intrare un set de obiecte și un număr care determină câte clustere doriți să scoateți.

Ambii algoritmi se partiționează (împărțind setul de date în grupuri) și ambii încearcă să minimizeze eroarea pătrată medie a rădăcinii , distanța dintre punctele dintr-un cluster și punctul desemnat a fi centrul. În K-înseamnă punctul este „artificial”, de fapt este centrul de greutate al tuturor punctelor din cluster. În medoidele K, punctul este utilizat, printre cele date, situat „mai central”, în acest fel centrul este una dintre datele observate. K-medoizii sunt mai robusti la zgomot și valori aberante decât K-înseamnă .

Un medoid poate fi definit ca un element al unui cluster a cărui diferență medie față de toate obiectele din cluster este minimă, deci va fi punctul cel mai central al unui set dat de puncte.

Algoritm

Algoritmul de grupare este după cum urmează:

  1. începe cu o selecție arbitrară de obiecte precum punctele medoide dintr-un set de puncte de date (cu );
  2. fiecare element din date este asociat împreună cu cel mai similar medoid, unde similitudinea este dată de funcția de cost care este definită folosind distanțe precum distanța euclidiană , distanța Manhattan sau distanța Minkowski ;
  3. un element non-medoid este selectat aleatoriu
  4. se calculează costul total care este suma costurilor elementelor individuale din medoidul corespunzător, în cazul medoidului inițial și costul total în cazul medoidului iar diferența este calculată
  5. de sine atunci medoidul inițial este schimbat cu cel nou (dacă atunci va exista un nou set de medoid);
  6. etapele de la 2 la 5 se repetă până când apar modificări în ansamblul medoid.

Exemplu

Apoi, trebuie să grupați următorul set de date de 10 obiecte în 2 clustere Și

Distribuirea datelor
Obiecte (Xi) Coordonata X Coordonata Y
X1 2 6
X2 3 4
X3 3 8
X4 4 7
X5 6 2
X6 6 4
X7 7 3
X8 7 4
X9 8 5
X10 7 6

Pasul 1

Initializez centre. Să presupunem că Și sunt medoizii noștri inițiali.

Calculăm distanța astfel încât să asociem fiecare element cu medoidul său cel mai apropiat. Kmedoidt2.jpg

Deci, să începem gruparea:

  • Clusterul 1 =
  • Clusterul 2 =

Fiind Și puncte apropiate de vor forma un cluster, în timp ce punctele rămase vor forma altul.

Costul total va fi de 20.

Costul dintre oricare două puncte se găsește folosind distanța Manhattan care este exprimată prin următoarea formulă:

unde este este orice element, este medoidul și este dimensiunea spațiului elementelor, în acest caz

Costul total este suma costurilor pentru articolele din medoidul dvs.:

Cluster după primul pas

Pasul 2

Selectarea unui nonmedoid la întâmplare. Presupunem

Prin urmare, medoizii sunt Și De sine Și sunt medoizi noi, costul total este recalculat folosind formula din pasul 1.

Kmedoidt3.jpg

Cluster după pasul 2

Astfel, costul schimbării medoidului din la Și:

Apoi schimbați medoidul în nu este o idee bună, alegerea anterioară a fost bună și algoritmul se încheie în acest moment (deoarece nu există modificări pentru medoizi).

Se poate întâmpla ca unele puncte de date să migreze de la un cluster la altul, acest lucru depinde de apropierea de noul medoid ales.

Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT