Indicele de corelație Pearson

Exemple de grafice de împrăștiere cu valori diferite ale indicelui de corelație (ρ)

În statistică , indicele de corelație Pearson (numit și coeficient de corelație liniar ^[1] sau coeficient de corelație Pearson sau coeficient de corelație Bravais-Pearson ) între două variabile statistice este un indice care exprimă o posibilă relație de linearitate între ele. ^[1] Conform inegalității lui Cauchy-Schwarz are o valoare între $+1$ ${\ displaystyle +1}$ $+1$ Și $-1,$ ${\ displaystyle -1,}$ ${\ displaystyle -1,}$ unde este $+1$ ${\ displaystyle +1}$ $+1$ corespunde corelației liniare pozitive perfecte, corespunde unei absențe a corelației liniare e $-1$ ${\ displaystyle -1}$ $-1$ corespunde corelației liniare negative negative. A fost dezvoltat de Karl Pearson dintr-o idee introdusă de Francis Galton în 1880; formula matematică a fost derivată și publicată de Auguste Bravais în 1844. ^[2] ^[3] ^[4] Desemnarea coeficientului este, de asemenea, un exemplu al legii lui Stigler .

Definiție

Având în vedere două variabile statistice $X$ ${\ displaystyle X}$ $X$ Și $Da$ ${\ displaystyle Y}$ $Da$ , Indicele de corelație Pearson este definit ca covarianța lor împărțită la produsul abaterilor standard ale celor două variabile:

\rho _{XY}={\frac {\sigma _{XY}}{\sigma _{X}\sigma _{Y}}}.

{\ displaystyle \ rho _ {XY} = {\ frac {\ sigma _ {XY}} {\ sigma _ {X} \ sigma _ {Y}}}.}

{\ displaystyle \ rho _ {XY} = {\ frac {\ sigma _ {XY}} {\ sigma _ {X} \ sigma _ {Y}}}.}

unde este $\sigma _{XY}$ ${\ displaystyle \ sigma _ {XY}}$ ${\ displaystyle \ sigma _ {XY}}$ Este covarianța dintre $X$ ${\ displaystyle X}$ $X$ Și $Da$ ${\ displaystyle Y}$ $Da$ Și $\sigma _{X},\sigma _{Y}$ ${\ displaystyle \ sigma _ {X}, \ sigma _ {Y}}$ ${\ displaystyle \ sigma _ {X}, \ sigma _ {Y}}$ sunt cele două abateri standard .

Coeficientul își asumă întotdeauna valori între $-1$ ${\ displaystyle -1}$ $-1$ Și $1:$ ${\ displaystyle 1:}$ ${\ displaystyle 1:}$ ^[5]

-1\leq \rho _{XY}\leq 1.

{\ displaystyle -1 \ leq \ rho _ {XY} \ leq 1.}

{\ displaystyle -1 \ leq \ rho _ {XY} \ leq 1.}

Corelația și independența

În practică, se disting diferite „tipuri” de corelație.

De sine $\rho _{XY}>0$ ${\ displaystyle \ rho _ {XY}> 0}$ ${\ displaystyle \ rho _ {XY}> 0}$ , variabilele $X$ ${\ displaystyle X}$ $X$ Și $Da$ ${\ displaystyle Y}$ $Da$ Se spune că sunt direct legate sau corelate pozitiv;
de sine $\rho _{XY}=0$ ${\ displaystyle \ rho _ {XY} = 0}$ ${\ displaystyle \ rho _ {XY} = 0}$ , variabilele $X$ ${\ displaystyle X}$ $X$ Și $Da$ ${\ displaystyle Y}$ $Da$ Se spune că sunt necorelate;
de sine $\rho _{XY}<0$ ${\ displaystyle \ rho _ {XY} <0}$ ${\ displaystyle \ rho _ {XY} <0}$ , variabilele $X$ ${\ displaystyle X}$ $X$ Și $Da$ ${\ displaystyle Y}$ $Da$ spun că sunt invers corelate sau corelate negativ.

Mai mult, pentru corelația directă (și în mod similar pentru cea inversă) distingem:

de sine $0<\left|\rho _{XY}\right|<0,3$ ${\ displaystyle 0 <\ left | \ rho _ {XY} \ right | <0,3}$ ${\ displaystyle 0 <\ left | \ rho _ {XY} \ right | <0,3}$ are o corelație slabă;
de sine $0,3<\left|\rho _{XY}\right|<0,7$ ${\ displaystyle 0,3 <\ left | \ rho _ {XY} \ right | <0,7}$ ${\ displaystyle 0,3 <\ left | \ rho _ {XY} \ right | <0,7}$ are o corelație moderată;
de sine $\left|\rho _{XY}\right|>0,7$ ${\ displaystyle \ left | \ rho _ {XY} \ right |> 0.7}$ ${\ displaystyle \ left | \ rho _ {XY} \ right |> 0.7}$ are o corelație puternică.

Dacă cele două variabile sunt independente, atunci indicele de corelație este egal cu 0. Nu merită concluzia opusă: cu alte cuvinte, incorelația este o condiție necesară , dar nu o condiție suficientă pentru independență. De exemplu, având în vedere distribuția

X:	-3	-2	-1	0	1	2	3
Y:	9	4	1	0	1	4	9

avem asta $X$ ${\ displaystyle X}$ $X$ Și $Da$ ${\ displaystyle Y}$ $Da$ nu sunt independenți, deoarece sunt legați de relație $Y=X^{2}$ ${\ displaystyle Y = X ^ {2}}$ $Y = X ^ {2}$ , dar $\rho _{XY}=0$ ${\ displaystyle \ rho _ {XY} = 0}$ ${\ displaystyle \ rho _ {XY} = 0}$ .

Ipoteza absenței autocorelației este mai restrictivă și implică cea a independenței între două variabile.

Indicele de corelație se menține $+1$ ${\ displaystyle +1}$ ${\ displaystyle +1}$ în prezența unei corelații liniare pozitive perfecte (adică $Y=a+bX$ ${\ displaystyle Y = a + bX}$ $Y = a + bX$ , cu $b>0$ ${\ displaystyle b> 0}$ $b> 0$ ), în timp ce este valabil $-1$ ${\ displaystyle -1}$ $-1$ în prezența unei corelații liniare negative negative (adică $Y=a+bX$ ${\ displaystyle Y = a + bX}$ $Y = a + bX$ , cu $b<0$ ${\ displaystyle b <0}$ $b <0$ ).

Valori apropiate de $+1$ ${\ displaystyle +1}$ $+1$ (sau $-1$ ${\ displaystyle -1}$ $-1$ ) pot fi măsurate și în prezența unor relații neliniare. De exemplu, următoarea relație pătratică: $Y=X^{2}$ ${\ displaystyle Y = X ^ {2}}$ $Y = X ^ {2}$

X:	1	2	3	4
Y:	1	4	9	16

produce un coeficient $\rho _{XY}=0,9844$ ${\ displaystyle \ rho _ {XY} = 0.9844}$ $\ rho _ {{XY}} = 0,9844$ .

Generalizare la mai mult de două variabile

Indicii de corelație ai $n$ ${\ displaystyle n}$ $n$ variabilele pot fi prezentate într-o matrice de corelație , care este o matrice pătrată de mărime $n\times n$ ${\ displaystyle n \ times n}$ $n \ ori n$ având variabilele în studiu atât pe rânduri, cât și pe coloane. Matricea este simetrică , adică $(\rho _{ji}=\rho _{ij})$ ${\ displaystyle (\ rho _ {ji} = \ rho _ {ij})}$ $(\ rho _ {{ji}} = \ rho _ {{{ij}}})$ , iar coeficienții de pe diagonală $1,$ ${\ displaystyle 1,}$ ${\ displaystyle 1,}$ in aceea

\rho _{ii}={\frac {\sigma _{ii}}{\sigma _{i}^{2}}}.

{\ displaystyle \ rho _ {ii} = {\ frac {\ sigma _ {ii}} {\ sigma _ {i} ^ {2}}}.}

{\ displaystyle \ rho _ {ii} = {\ frac {\ sigma _ {ii}} {\ sigma _ {i} ^ {2}}}.}

Proprietăți matematice

O valoare a indexului de corelație egală cu $+1$ ${\ displaystyle +1}$ $+1$ sau $-1$ ${\ displaystyle -1}$ $-1$ corespunde punctelor care sunt exact pe o linie dreaptă. Coeficientul de corelație al lui Pearson este simetric: $\rho _{XY}=\rho _{YX}.$ ${\ displaystyle \ rho _ {XY} = \ rho _ {YX}.}$ ${\ displaystyle \ rho _ {XY} = \ rho _ {YX}.}$

O proprietate matematică caracteristică a coeficientului de corelație al lui Pearson este aceea că acesta nu variază în raport cu modificările individuale ale poziției și scalei celor două variabile. Adică ne putem transforma $X$ ${\ displaystyle X}$ $X$ în $a+bX$ ${\ displaystyle a + bX}$ ${\ displaystyle a + bX}$ și transformă $Da$ ${\ displaystyle Y}$ $Da$ în $c+dY,$ ${\ displaystyle c + dY,}$ ${\ displaystyle c + dY,}$ unde este $la, b, c$ ${\ displaystyle a, b, c}$ $a, b, c$ Și $d$ ${\ displaystyle d}$ $d$ sunt constante reale cu $b,d>0,$ ${\ displaystyle b, d> 0,}$ ${\ displaystyle b, d> 0,}$ fără a modifica coeficientul de corelație.

Notă

Bibliografie

Sheldon M. Ross, Introducere în statistici , ediția a II-a, Maggs Publisher, 2014, ISBN 8891602671 .

Elemente conexe

Coeficientul de corelație a rangului Spearman
Coeficientul de corelație al rangului Kendall
Regresie liniara
Corelație (statistici)
Karl Pearson
Francis Galton , primul care a introdus litera R (ca prescurtare a „regresiei”) chiar dacă a folosit un coeficient diferit, ca normava folosind intervalul intercuartil.

linkuri externe

(EN) Pearson Correlation Index , of Encyclopedia Britannica , Encyclopædia Britannica, Inc.

Controlul autorității	GND (DE) 4165345-2

Portalul Economiei

Portalul de statistici

[istat-1] A ^b Glosar Istat pe www3.istat.it (depus de 'url original 31 decembrie 2011).

[2] (F. Galton) (24 septembrie 1885), „The British Association: Section II, Anthropology: Opening speech by Francis Galton, FRS etc., președintele Institutului antropologic, președintele secțiunii,„ Nature, 32 (830) ): 507-510. .

[3] Karl Pearson (20 iunie 1895) „Note privind regresia și moștenirea în cazul a doi părinți”, Proceedings of the Royal Society of London, 58: 240-242. .

[4] Stigler, Stephen M. (1989). „Relatarea lui Francis Galton despre invenția corelației”. Știința statistică. 4 (2): 73–79. .

[5] Ross , p. 117.

[1]

[2]

[3]

[4]

[5]

V · D · M Statistici
Statisticile descriptive	Medii ( aritmetice · geometrice · armonioase · Putere · aritmetice și geometrice · Integrale ) · Mediană · Modă · interval de variație · varianță · Deviație standard · deviație absolută medie · Simetrie · Diferență medie ( absolută · logaritmică ) · Curtosi
Inferință statistică	Test de testare a ipotezelor · Semnificație · Ipoteză nulă / alternativă · Eroare I și tip II · Test Q · U test · Test t · Z Test · Probabilitate maximă · Standardizare · valoare p · Analiza variației
Analiza supraviețuirii	Rata de eșec · Estimatorul Kaplan-Meier · jurnalul de testare
Analiza regresiei	Regresie liniară · Regresie neliniară · variabile instrumentale · metodă generalizată a momentelor · Regresie logistică · Model probit · Model logit