Anscombe Quartet

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Toate cele patru seturi de date sunt identice atunci când sunt evaluate conform unor statistici de bază, dar atunci când sunt reprezentate pe un grafic sunt foarte diferite.

Cvartetul Anscombe include patru seturi de date pentru care cele mai comune statistici descriptive sunt practic identice, dar care odată reproduse pe un grafic capătă un aspect foarte diferit. Fiecare set de date este format din unsprezece puncte de coordonate ( x , y ). Acestea au fost construite în 1973 de către statisticianul Francis Anscombe pentru a demonstra importanța graficării datelor înainte de a le analiza și efectul valorilor aberante asupra proprietăților statistice. El a susținut că scopul său a fost să atace ideea larg răspândită în rândul statisticienilor că „calculele numerice sunt corecte, dar graficele sunt grosiere”. [1]

Date

Pentru toate cele patru seturi de date, următoarele statistici descriptive dau aceleași valori:

Proprietate Valoare Precizie
Media x 9 corect
Varianța lui x 11 corect
Media de y 7.50 până la a doua zecimală
Varianța lui y 4.125 cu o abatere maximă de 0,003
Corelația dintre x și y 0,816 până la a treia zecimală
Regresie liniara y = 3,00 + 0,500 x
  • Primul grafic de împrăștiere (stânga sus) pare să reprezinte o relație liniară simplă, corespunzătoare a două variabile corelate pentru care y ar putea fi modelat ca normal cu medie liniar dependentă de x .
  • În al doilea grafic (dreapta sus), deși se poate observa o relație evidentă între cele două variabile, aceasta nu este liniară, iar indicele de corelație Pearson nu este relevant (o metodă de regresie mai flexibilă și coeficientul de determinare corespunzător ar fi mai adecvat) .
  • În cel de-al treilea grafic (stânga jos), distribuția este liniară, dar cu un coeficient de regresie diferit de cel estimat, care este influențat de singurul prezent anormal , suficient de semnificativ pentru a modifica estimările și pentru a reduce coeficientul de corelație de la 1 la 0,816. . O regresie liniară robustă ar fi mai eficientă în acest caz.
  • În cele din urmă, al patrulea grafic (dreapta jos) arată un exemplu al modului în care un punct de pârghie este adesea suficient pentru a stabili un indice de corelație ridicat, chiar dacă celelalte observații nu arată nicio asociere între variabile.

Cvartetul este încă folosit pentru a ilustra importanța abordării grafice a unui set de date înainte de a începe să-l analizeze în funcție de un fel de relație și a inadecvării proprietăților statistice de bază pentru a descrie seturi de date realiste. [2] [3] [4] [5] [6]

Urmează seturile de date. Valorile lui x pentru primele trei seturi de date sunt aceleași. [1]

Anscombe Quartet
THE II III IV
X y X y X y X y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6,58
8.0 6,95 8.0 8.14 8.0 6,77 8.0 5,76
13.0 7.58 13.0 8.74 13.0 12,74 8.0 7.71
9.0 8,81 9.0 8,77 9.0 7.11 8.0 8,84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9,96 14.0 8.10 14.0 8,84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5,25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10,84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4,82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5,68 5.0 4.74 5.0 5,73 8.0 6,89

Ulterior, a fost dezvoltată o procedură pentru a genera seturi de date similare cu statistici identice, dar grafice distincte. [7]

Vezi si

  • Analiza datelor exploratorii

Notă

  1. ^ a b FJ Anscombe , Graphs in Statistical Analysis , în American Statistician , vol. 27, n. 1, 1973, pp. 17-21.
  2. ^ Glenn Elert,Regresie liniară , în The Hypertextbook de fizică .
  3. ^ Philipp K. Janert, Analiza datelor cu instrumente open source , O'Reilly Media, Inc., 2010, pp. 65-66, ISBN 0-596-80235-8 .
  4. ^ Analiza regresiei prin exemplu , John Wiley și Sons, 2006, p. 91, ISBN 0-471-74696-7 .
  5. ^ Metode statistice: abordarea geometrică , Springer , 1991, p. 418, ISBN 0-387-97517-9 .
  6. ^ Edward R. Tufte ,The Visual Display of Quantitative Information , 2nd, Cheshire, CT, Graphics Press, 2001, ISBN 0-9613921-4-2 .
  7. ^ Generarea de date cu statistici identice, dar grafică diferită: A Follow to the Anscombe Dataset , în American Statistician , vol. 61, nr. 3, 2007, pp. 248-254, DOI : 10.1198 / 000313007X220057 .

Alte proiecte

linkuri externe