Anscombe Quartet
Cvartetul Anscombe include patru seturi de date pentru care cele mai comune statistici descriptive sunt practic identice, dar care odată reproduse pe un grafic capătă un aspect foarte diferit. Fiecare set de date este format din unsprezece puncte de coordonate ( x , y ). Acestea au fost construite în 1973 de către statisticianul Francis Anscombe pentru a demonstra importanța graficării datelor înainte de a le analiza și efectul valorilor aberante asupra proprietăților statistice. El a susținut că scopul său a fost să atace ideea larg răspândită în rândul statisticienilor că „calculele numerice sunt corecte, dar graficele sunt grosiere”. [1]
Date
Pentru toate cele patru seturi de date, următoarele statistici descriptive dau aceleași valori:
Proprietate | Valoare | Precizie |
---|---|---|
Media x | 9 | corect |
Varianța lui x | 11 | corect |
Media de y | 7.50 | până la a doua zecimală |
Varianța lui y | 4.125 | cu o abatere maximă de 0,003 |
Corelația dintre x și y | 0,816 | până la a treia zecimală |
Regresie liniara | y = 3,00 + 0,500 x |
- Primul grafic de împrăștiere (stânga sus) pare să reprezinte o relație liniară simplă, corespunzătoare a două variabile corelate pentru care y ar putea fi modelat ca normal cu medie liniar dependentă de x .
- În al doilea grafic (dreapta sus), deși se poate observa o relație evidentă între cele două variabile, aceasta nu este liniară, iar indicele de corelație Pearson nu este relevant (o metodă de regresie mai flexibilă și coeficientul de determinare corespunzător ar fi mai adecvat) .
- În cel de-al treilea grafic (stânga jos), distribuția este liniară, dar cu un coeficient de regresie diferit de cel estimat, care este influențat de singurul prezent anormal , suficient de semnificativ pentru a modifica estimările și pentru a reduce coeficientul de corelație de la 1 la 0,816. . O regresie liniară robustă ar fi mai eficientă în acest caz.
- În cele din urmă, al patrulea grafic (dreapta jos) arată un exemplu al modului în care un punct de pârghie este adesea suficient pentru a stabili un indice de corelație ridicat, chiar dacă celelalte observații nu arată nicio asociere între variabile.
Cvartetul este încă folosit pentru a ilustra importanța abordării grafice a unui set de date înainte de a începe să-l analizeze în funcție de un fel de relație și a inadecvării proprietăților statistice de bază pentru a descrie seturi de date realiste. [2] [3] [4] [5] [6]
Urmează seturile de date. Valorile lui x pentru primele trei seturi de date sunt aceleași. [1]
THE | II | III | IV | ||||
---|---|---|---|---|---|---|---|
X | y | X | y | X | y | X | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6,58 |
8.0 | 6,95 | 8.0 | 8.14 | 8.0 | 6,77 | 8.0 | 5,76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12,74 | 8.0 | 7.71 |
9.0 | 8,81 | 9.0 | 8,77 | 9.0 | 7.11 | 8.0 | 8,84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9,96 | 14.0 | 8.10 | 14.0 | 8,84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5,25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10,84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4,82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5,68 | 5.0 | 4.74 | 5.0 | 5,73 | 8.0 | 6,89 |
Ulterior, a fost dezvoltată o procedură pentru a genera seturi de date similare cu statistici identice, dar grafice distincte. [7]
Vezi si
- Analiza datelor exploratorii
Notă
- ^ a b FJ Anscombe , Graphs in Statistical Analysis , în American Statistician , vol. 27, n. 1, 1973, pp. 17-21.
- ^ Glenn Elert,Regresie liniară , în The Hypertextbook de fizică .
- ^ Philipp K. Janert, Analiza datelor cu instrumente open source , O'Reilly Media, Inc., 2010, pp. 65-66, ISBN 0-596-80235-8 .
- ^ Analiza regresiei prin exemplu , John Wiley și Sons, 2006, p. 91, ISBN 0-471-74696-7 .
- ^ Metode statistice: abordarea geometrică , Springer , 1991, p. 418, ISBN 0-387-97517-9 .
- ^ Edward R. Tufte ,The Visual Display of Quantitative Information , 2nd, Cheshire, CT, Graphics Press, 2001, ISBN 0-9613921-4-2 .
- ^ Generarea de date cu statistici identice, dar grafică diferită: A Follow to the Anscombe Dataset , în American Statistician , vol. 61, nr. 3, 2007, pp. 248-254, DOI : 10.1198 / 000313007X220057 .
Alte proiecte
- Wikimedia Commons conține imagini sau alte fișiere despre Cvartetul lui Anscombe
linkuri externe
- Departamentul de Fizică, Universitatea din Toronto
- Applet dinamic creat în GeoGebra care afișează date și statistici și vă permite să trageți punctele listei (setul 5).