Mahalanobis distanță

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În statistici , distanța Mahalanobis este o măsură a distanței introdusă de PC Mahalanobis în 1936. [1] Se bazează pe corelații între variabile prin care pot fi identificate și analizate diferite tipare. Acesta este un mod util de a determina similaritatea unui spațiu eșantion necunoscut în comparație cu unul cunoscut. Acesta diferă de distanța euclidiană prin faptul că ia în considerare corelațiile din setul de date.

Definiție

Formal distanța Mahalanobis a unui vector multivariat comparativ cu un grup de valori de valoare medie și matricea de covarianță este definit ca:

[2]

Distanța Mahalanobis (sau distanța interpunctului pătrat generalizat [3] ) poate fi, de asemenea, definită ca o măsură a diferenței dintre doi vectori aleatori Și cu aceeași funcție de densitate de probabilitate și cu o matrice de covarianță :

Cazuri speciale

  • Dacă matricea de covarianță este matricea identitară, distanța Mahalanobis este redusă la distanța euclidiană .
  • Dacă matricea de covarianță este diagonală, măsurarea distanței rezultată se numește distanța euclidiană normalizată

in care este abaterea standard a în cadrul setului de date.

Explicație intuitivă

Luați în considerare problema estimării probabilității ca un punct examinat în spațiul euclidian N- dimensional să aparțină unui set, din care sunt date câteva eșantioane care cu siguranță aparțin acelui set. Intuitiv, cu cât acest punct este mai aproape de centrul maselor, cu atât este mai probabil să aparțină acelui set.

Mai mult, este de asemenea necesar să știm dacă întregul este distribuit pe o distanță mică sau mare, pentru a decide dacă o anumită distanță de centru este mai mult sau mai puțin consistentă. Cea mai simplă abordare este de a estima abaterea standard a probelor de la centrul de masă. Dacă distanța dintre punctul în cauză și centrul de masă este mai mică de o abatere standard, se poate concluziona că este foarte probabil ca punctul în cauză să aparțină întregului. Cu cât această distanță este mai mare, cu atât este mai mică probabilitatea ca acest punct să fie clasificat ca aparținând întregului.

Această abordare intuitivă poate fi făcută cantitativ prin definirea distanței normalizate între punctul luat în considerare și întregul ca:

.

Presupunerea acestei abordări este că punctele de eșantionare sunt distribuite într-o hipersferă în jurul centrului de masă. Dacă distribuția nu este sferică (de exemplu hiperelipsoidală ), ar fi firesc să ne așteptăm ca probabilitatea ca punctul în cauză să aparțină setului depinde nu numai de distanța de la centrul de masă, ci și de direcție. Pe direcțiile în care hiperelipsoidul are o axă mai scurtă, punctul în curs de examinare trebuie să fie mai aproape pentru a fi considerat ca aparținând mulțimii, în timp ce pe direcțiile în care axa este mai lungă, punctul în examinare se poate afla și la distanțe majore. Dezvoltând toate acestea în termeni matematici, hiperelipsoidul care reprezintă cel mai bine setul de probabilități poate fi estimat prin matricea de covarianță a probelor. Prin urmare, distanța Mahalanobis este pur și simplu distanța punctului examinat de la centrul maselor normalizată în raport cu amplitudinea elipsoidului în direcția punctului examinat.

Aplicații

  • Distanța Mahalanobis a fost determinată de problema de identificare a craniului bazată pe măsurare în 1927. [4]
  • Mai mult, distanța Mahalanobis este utilizată pentru a detecta valori aberante , în special în dezvoltarea modelelor de regresie liniară . Un punct care are o distanță mare de Mahalanobis de restul probelor are o influență mare asupra pantei sau coeficienților ecuației de regresie.

Notă

  1. ^ PC Mahalanobis, Despre distanța generalizată în statistici , în Proceedings of the National Institute of Sciences of India , vol. 2, nr. 1, 1936, pp. 49–55. Adus pe 5 noiembrie 2008 .
  2. ^ De Maesschalck, R.; D. Jouan-Rimbaud, DL Massart (2000) Distanța Mahalanobis. Chimiometrie și sisteme inteligente de laborator 50: 1–18
  3. ^ Gnanadesikan, R. și JR Kettenring (1972). Estimări robuste, reziduuri și detectare anterioară cu date de răspuns multiplu. Biometrie 28: 81-124.
  4. ^ Mahalanobis, PC (1927). Analiza amestecului rasial în Bengal. J. Proc. Asiatic Soc. Of Bengal. 23: 301-333.
  5. ^ McLachlan, Geoffry J (1992) Analiză discriminantă și recunoaștere a modelelor statistice. Wiley Interscience. ISBN 0-471-69115-1 p. 12

Elemente conexe

linkuri externe