Indicele de corelație Pearson

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Exemple de grafice de împrăștiere cu valori diferite ale indicelui de corelație (ρ)

În statistică , indicele de corelație Pearson (numit și coeficient de corelație liniar [1] sau coeficient de corelație Pearson sau coeficient de corelație Bravais-Pearson ) între două variabile statistice este un indice care exprimă o posibilă relație de linearitate între ele. [1] Conform inegalității lui Cauchy-Schwarz are o valoare între Și unde este corespunde corelației liniare pozitive perfecte, corespunde unei absențe a corelației liniare e corespunde corelației liniare negative negative. A fost dezvoltat de Karl Pearson dintr-o idee introdusă de Francis Galton în 1880; formula matematică a fost derivată și publicată de Auguste Bravais în 1844. [2] [3] [4] Desemnarea coeficientului este, de asemenea, un exemplu al legii lui Stigler .

Definiție

Având în vedere două variabile statistice Și , Indicele de corelație Pearson este definit ca covarianța lor împărțită la produsul abaterilor standard ale celor două variabile:

unde este Este covarianța dintre Și Și sunt cele două abateri standard .

Coeficientul își asumă întotdeauna valori între Și [5]

Corelația și independența

În practică, se disting diferite „tipuri” de corelație.

  • De sine , variabilele Și Se spune că sunt direct legate sau corelate pozitiv;
  • de sine , variabilele Și Se spune că sunt necorelate;
  • de sine , variabilele Și spun că sunt invers corelate sau corelate negativ.

Mai mult, pentru corelația directă (și în mod similar pentru cea inversă) distingem:

  • de sine are o corelație slabă;
  • de sine are o corelație moderată;
  • de sine are o corelație puternică.

Dacă cele două variabile sunt independente, atunci indicele de corelație este egal cu 0. Nu merită concluzia opusă: cu alte cuvinte, incorelația este o condiție necesară , dar nu o condiție suficientă pentru independență. De exemplu, având în vedere distribuția

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

avem asta Și nu sunt independenți, deoarece sunt legați de relație , dar .

Ipoteza absenței autocorelației este mai restrictivă și implică cea a independenței între două variabile.

Indicele de corelație se menține în prezența unei corelații liniare pozitive perfecte (adică , cu ), în timp ce este valabil în prezența unei corelații liniare negative negative (adică , cu ).

Valori apropiate de (sau ) pot fi măsurate și în prezența unor relații neliniare. De exemplu, următoarea relație pătratică:

X: 1 2 3 4
Y: 1 4 9 16

produce un coeficient .

Generalizare la mai mult de două variabile

Indicii de corelație ai variabilele pot fi prezentate într-o matrice de corelație , care este o matrice pătrată de mărime având variabilele în studiu atât pe rânduri, cât și pe coloane. Matricea este simetrică , adică , iar coeficienții de pe diagonală in aceea

Proprietăți matematice

O valoare a indexului de corelație egală cu sau corespunde punctelor care sunt exact pe o linie dreaptă. Coeficientul de corelație al lui Pearson este simetric:

O proprietate matematică caracteristică a coeficientului de corelație al lui Pearson este aceea că acesta nu variază în raport cu modificările individuale ale poziției și scalei celor două variabile. Adică ne putem transforma în și transformă în unde este Și sunt constante reale cu fără a modifica coeficientul de corelație.

Notă

Bibliografie

Elemente conexe

linkuri externe

Controlul autorității GND (DE) 4165345-2