Analiza variatiei

Analiza varianței L (ANOVA, din „ Analiza engleză a varianței) este un set de statistici tehnice care fac parte din statistici inferențiale care permit compararea a două sau mai multe grupuri de date prin compararea variabilității interne din aceste grupuri cu variabilitatea dintre grupuri.

Ipoteza nulă prezice de obicei că datele tuturor grupurilor au aceeași origine, adică aceeași distribuție stocastică și că diferențele observate între grupuri se datorează doar întâmplării.

Aceste tehnici sunt utilizate atunci când variabilele explicative sunt nominale (discrete). Nu există nimic care să împiedice utilizarea acestor tehnici chiar și în prezența variabilelor explicative de tip ordinal sau continuu, dar în acest caz sunt mai puțin eficiente decât tehnicile alternative (de exemplu: regresia liniară ).

Ipoteza de bază

Ipoteza din spatele analizei varianței este că datele $G.$ ${\ displaystyle G}$ $G.$ grupuri, este posibil să se împartă varianța în două componente: Varianța în cadrul grupurilor (numită și Varianța în interior ) și Varianța între grupuri ( Varianța între ). Motivul care împinge să facă această distincție este convingerea, din partea cercetătorului, că anumite fenomene găsesc explicații în caracteristicile grupului căruia îi aparțin. Un exemplu tipic, preluat din analize sociologice , se găsește în studiul grupurilor de dependenți de droguri. În acest caz, analiza varianței este utilizată pentru a determina dacă mai multe grupuri pot fi într-un fel sau altul semnificativ diferite (varianța dintre contribuie semnificativ la varianța totală - fenomenul este legat de caracteristicile specifice fiecărui grup, cum ar fi zona de reședință) sau, invers, sunt omogene (varianța din interior contribuie semnificativ la varianța totală - fenomenul este legat de caracteristicile tuturor grupurilor). Cu alte cuvinte, comparația se bazează pe ideea că dacă variabilitatea intra-grup este relativ mare în comparație cu variabilitatea între grupuri, probabil că diferența dintre aceste grupuri este doar un rezultat al variabilității interne.

Cel mai cunoscut set de tehnici se bazează pe comparația varianței și utilizează variabile de test distribuite, cum ar fi variabila aleatoare F. Fisher-Snedecor.

Diferitele tehnici sunt împărțite în funcție de modelul care include:

o singură cauză: de exemplu: gustul unui aliment depinde de culoarea acestuia;
mai multe cauze: de exemplu: succesul academic depinde atât de gradul de interes individual în studierea și obținerea de note bune, cât și de nivelul de educație al părinților;
interacțiunea între cauze multiple: de exemplu: viteza de vindecare depinde de două medicamente, care totuși se anulează (sau se întăresc) reciproc.

Discuție analitică

Relația dintre varianța totală $\sigma ^{2}$ ${\ displaystyle \ sigma ^ {2}}$ $\ sigma ^ {2}$ referit la $n$ ${\ displaystyle n}$ $n$ unități și varianțe calculate pe grupe individuale $\sigma _{g}^{2}$ ${\ displaystyle \ sigma _ {g} ^ {2}}$ $\ sigma _ {g} ^ {2}$ (cu $g=1,2,\ldots ,G$ ${\ displaystyle g = 1,2, \ ldots, G}$ ${\ displaystyle g = 1,2, \ ldots, G}$ ) Rezultă a fi:

\sigma ^{2}=\sum _{g=1}^{G}\sigma _{g}^{2}{{n_{g}-1} \over {n-1}}+\sum _{g=1}^{G}(m_{g}-m)^{2}{n_{g} \over {n-1}}.

{\ displaystyle \ sigma ^ {2} = \ sum _ {g = 1} ^ {G} \ sigma _ {g} ^ {2} {{n_ {g} -1} \ over {n-1}} + \ sum _ {g = 1} ^ {G} (m_ {g} -m) ^ {2} {n_ {g} \ over {n-1}}.}

{\ displaystyle \ sigma ^ {2} = \ sum _ {g = 1} ^ {G} \ sigma _ {g} ^ {2} {{n_ {g} -1} \ over {n-1}} + \ sum _ {g = 1} ^ {G} (m_ {g} -m) ^ {2} {n_ {g} \ over {n-1}}.}

Prima însumare este varianța din interior, în timp ce a doua este varianța dintre. Deci, în mod echivalent, putem scrie:

\sigma ^{2}=\sigma _{W}^{2}+\sigma _{B}^{2},

{\ displaystyle \ sigma ^ {2} = \ sigma _ {W} ^ {2} + \ sigma _ {B} ^ {2},}

{\ displaystyle \ sigma ^ {2} = \ sigma _ {W} ^ {2} + \ sigma _ {B} ^ {2},}

unde este $m$ ${\ displaystyle m}$ $m$ este media totală a $n$ ${\ displaystyle n}$ $n$ unități, egale cu media parțială a fiecărui grup $m_{g}$ ${\ displaystyle m_ {g}}$ $m_g$ cu greutăți egale cu frecvențele relative ale grupului relativ ${n_{g} \over n}$ ${\ displaystyle {n_ {g} \ over n}}$ ${n_ {g} \ peste n}$ .

La rândul lor, mediile parțiale $m_{g}$ ${\ displaystyle m_ {g}}$ $m_g$ de valori $x_{gj}$ ${\ displaystyle x_ {gj}}$ $x _ {{gj}}$ din $g$ ${\ displaystyle g}$ $g$ -al grupul este dat de:

m_{g}=\sum _{j=1}^{n_{g}}{x_{gj} \over n_{g}}.

{\ displaystyle m_ {g} = \ sum _ {j = 1} ^ {n_ {g}} {x_ {gj} \ over n_ {g}}.}

{\ displaystyle m_ {g} = \ sum _ {j = 1} ^ {n_ {g}} {x_ {gj} \ over n_ {g}}.}

Mai mult, avem:

\sigma _{g}^{2}={\sum _{j=1}^{n_{g}}[x_{gj}-m_{g}]^{2} \over {n_{g}-1}}.

{\ displaystyle \ sigma _ {g} ^ {2} = {\ sum _ {j = 1} ^ {n_ {g}} [x_ {gj} -m_ {g}] ^ {2} \ over {n_ { g} -1}}.}

{\ displaystyle \ sigma _ {g} ^ {2} = {\ sum _ {j = 1} ^ {n_ {g}} [x_ {gj} -m_ {g}] ^ {2} \ over {n_ { g} -1}}.}

Varianța din interior este egală cu media ponderată a varianțelor parțiale calculate în fiecare grup. Greutățile sunt egale cu frecvențele lor relative .

Varianța dintre este egală cu varianța ponderată a mediilor parțiale. Greutățile sunt egale cu frecvențele relative ale grupului.

Exemplu de analiză simplă a varianței

În acest exemplu avem $G=4$ ${\ displaystyle G = 4}$ $G = 4$ grupuri de număr egal $n_{g}=5$ ${\ displaystyle n_ {g} = 5}$ $n_ {g} = 5$ (pentru a simplifica exemplul), cu $g=1,2,3,4$ ${\ displaystyle g = 1,2,3,4}$ $g = 1,2,3,4$ , indicat cu $LA, B., C., D.$ ${\ displaystyle A, B, C, D}$ $A, B, C, D$ Și $n=20$ ${\ displaystyle n = 20}$ $n = 20$ unități statistice (adică numărul de observații experimentale totale).

Modelul prezice că

x_{gj}=\mu +\alpha _{g}+\varepsilon _{gj},

{\ displaystyle x_ {gj} = \ mu + \ alpha _ {g} + \ varepsilon _ {gj},}

{\ displaystyle x_ {gj} = \ mu + \ alpha _ {g} + \ varepsilon _ {gj},}

cu $g=1,2,3,4$ ${\ displaystyle g = 1,2,3,4}$ $g = 1,2,3,4$ indicând grupul e $j=1,2,3,4,5$ ${\ displaystyle j = 1,2,3,4,5}$ $j = 1,2,3,4,5$ .

Ipoteza nulă prevede că:

valorile observate derivă dintr-odistribuție gaussiană ;
cu aceeași medie $\mu$ ${\ displaystyle \ mu}$ $\ mu$ și aceeași varianță $\sigma ^{2}$ ${\ displaystyle \ sigma ^ {2}}$ $\ sigma ^ {2}$ ;
$\alpha _{g}$ ${\ displaystyle \ alpha _ {g}}$ $\ alpha _ {{g}}$ este același pentru toate grupurile (și, prin urmare, nul).

Datele observate în cele patru grupuri sunt:

j	LA	B.	C.	D.
1	0,72	0,75	0,68	0,78
2	0,69	0,85	0,70	0,86
3	0,71	0,82	0,67	0,87
4	0,70	0,80	0,65	0,84
5	0,68	0,88	0,70	0,85

Haideți acum:

$SSQ_{a}$ ${\ displaystyle SSQ_ {a}}$ $SSQ_ {a}$ : suma abaterilor pătrate ale mijloacelor grupurilor individuale ( $m_{g}$ ${\ displaystyle m_ {g}}$ $m_g$ ) din media generală $m$ ${\ displaystyle m}$ $m$ ;
$SSQ_{e}$ ${\ displaystyle SSQ_ {e}}$ $SSQ_ {e}$ : suma deviațiilor pătrate ale valorilor unice $x_{gj}$ ${\ displaystyle x_ {gj}}$ $x _ {{gj}}$ decât media $m_{g}$ ${\ displaystyle m_ {g}}$ $m_g$ a grupului căruia îi aparțin;
$SSQ_{tot}$ ${\ displaystyle SSQ_ {tot}}$ $SSQ _ {{tot}}$ : suma abaterilor pătrate ale tuturor valorilor individuale în raport cu media generală $m$ ${\ displaystyle m}$ $m$ .

Adică:

m={\frac {1}{n}}\sum _{g=1}^{G}\sum _{j=1}^{n_{g}}x_{gj}

{\ displaystyle m = {\ frac {1} {n}} \ sum _ {g = 1} ^ {G} \ sum _ {j = 1} ^ {n_ {g}} x_ {gj}}

m = {\ frac {1} {n}} \ sum _ {{g = 1}} ^ {G} \ sum _ {{j = 1}} ^ {{n_ {g}}} x _ {{gj }}

m_{g}={\frac {1}{n_{g}}}\sum _{j=1}^{n_{g}}x_{gj}

{\ displaystyle m_ {g} = {\ frac {1} {n_ {g}}} \ sum _ {j = 1} ^ {n_ {g}} x_ {gj}}

m_ {g} = {\ frac {1} {n_ {g}}} \ sum _ {{j = 1}} ^ {{n_ {g}}} x _ {{gj}}

SSQ_{a}=\sum _{g=1}^{G}n_{g}(m_{g}-m)^{2}

{\ displaystyle SSQ_ {a} = \ sum _ {g = 1} ^ {G} n_ {g} (m_ {g} -m) ^ {2}}

SSQ_ {a} = \ sum _ {{g = 1}} ^ {G} n_ {g} (m_ {g} -m) ^ {2}

SSQ_{e}=\sum _{g=1}^{G}\sum _{j=1}^{n_{g}}(x_{gj}-m_{g})^{2}

{\ displaystyle SSQ_ {e} = \ sum _ {g = 1} ^ {G} \ sum _ {j = 1} ^ {n_ {g}} (x_ {gj} -m_ {g}) ^ {2} }

SSQ_ {e} = \ sum _ {{g = 1}} ^ {G} \ sum _ {{j = 1}} ^ {{n_ {g}}} (x _ {{gj}} - m_ {g }) ^ {2}

SSQ_{tot}=\sum _{g=1}^{G}\sum _{j=1}^{n_{g}}(x_{gj}-m)^{2}=SSQ_{e}+SSQ_{a}

{\ displaystyle SSQ_ {tot} = \ sum _ {g = 1} ^ {G} \ sum _ {j = 1} ^ {n_ {g}} (x_ {gj} -m) ^ {2} = SSQ_ { e} + SSQ_ {a}}

SSQ _ {{tot}} = \ sum _ {{g = 1}} ^ {G} \ sum _ {{j = 1}} ^ {{n_ {g}}} (x _ {{gj}} - m) ^ {2} = SSQ_ {e} + SSQ_ {a}

Variabila de testare devine:

T={\frac {SSQ_{a}/(G-1)}{SSQ_{e}/(n-G)}}

{\ displaystyle T = {\ frac {SSQ_ {a} / (G-1)} {SSQ_ {e} / (nG)}}}

T = {\ frac {SSQ_ {a} / (G-1)} {SSQ_ {e} / (n-G)}}

unde este:

G.

{\ displaystyle G}

G.

este numărul de grupuri (în exemplul nostru:

G=4

{\ displaystyle G = 4}

G = 4

);

n_{g}

{\ displaystyle n_ {g}}

n_ {g}

numărul grupurilor individuale (în cazul nostru

n_{g}=5

{\ displaystyle n_ {g} = 5}

n_ {g} = 5

pentru fiecare grup);

n=\sum _{g=1}^{G}n_{g}

{\ displaystyle n = \ sum _ {g = 1} ^ {G} n_ {g}}

n = \ sum _ {{g = 1}} ^ {G} n_ {g}

, acesta este numărul total de cazuri observate (în cazul nostru

n=20

{\ displaystyle n = 20}

n = 20

).

În exemplu, obținem că:

SSQ_{tot}=0,1176

{\ displaystyle SSQ_ {tot} = 0.1176}

SSQ _ {{tot}} = 0.1176

SSQ_{a}=0,1000

{\ displaystyle SSQ_ {a} = 0.1000}

SSQ_ {a} = 0,1000

SSQ_{e}=0,0176

{\ displaystyle SSQ_ {e} = 0,0176}

SSQ_ {e} = 0,0176

prin urmare

T={\frac {0,1000/(4-1)}{0.0176/(20-4)}}={\frac {0,1000\cdot 16}{0,0176\cdot 3}}=30,30.

{\ displaystyle T = {\ frac {0,1000 / (4-1)} {0.0176 / (20-4)}} = {\ frac {0,1000 \ cdot 16} {0,0176 \ cdot 3}} = 30.30.}

{\ displaystyle T = {\ frac {0,1000 / (4-1)} {0.0176 / (20-4)}} = {\ frac {0,1000 \ cdot 16} {0,0176 \ cdot 3}} = 30.30.}

Această valoare este comparată cu valorile unei variabile aleatorii Snedecor F cu $G-1=3$ ${\ displaystyle G-1 = 3}$ ${\ displaystyle G-1 = 3}$ Și $n-G=16$ ${\ displaystyle nG = 16}$ ${\ displaystyle n-G = 16}$ grade de libertate . Dacă acceptați un procent fals pozitiv din $5\%=(100-95)\%$ ${\ displaystyle 5 \% = (100-95) \%}$ $5 \% = (100-95) \%$ această valoare este:

F(0,95;3;16)=3,24.

{\ displaystyle F (0,95; 3; 16) = 3,24.}

{\ displaystyle F (0,95; 3; 16) = 3,24.}

Prin urmare, fiind $30,3\gg 3,24$ ${\ displaystyle 30.3 \ gg 3.24}$ $30,3 \ zile 3,24$ ipoteza nulă care a prezis absența efectelor este respinsă și se afirmă că cel mai probabil cel puțin unul dintre cele patru grupuri este diferit de celelalte. Poate că toate grupurile sunt diferite între ele, poate doar unul dintre ele.

Un test (propus pentru prima dată de Ronald Fisher ) face posibilă determinarea celei mai mici diferențe semnificative între media a două grupuri, comparându-le unul cu unul.

Această diferență este:

t\left({\frac {0,05}{2}};n-G\right)\cdot {\sqrt {\left(SSQ_{e}\left({\frac {1}{n_{p}}}+{\frac {1}{n_{q}}}\right)\right)}}.

{\ displaystyle t \ left ({\ frac {0,05} {2}}; nG \ right) \ cdot {\ sqrt {\ left (SSQ_ {e} \ left ({\ frac {1} {n_ {p }}} + {\ frac {1} {n_ {q}}} \ right) \ right)}}.}

{\ displaystyle t \ left ({\ frac {0,05} {2}}; nG \ right) \ cdot {\ sqrt {\ left (SSQ_ {e} \ left ({\ frac {1} {n_ {p }}} + {\ frac {1} {n_ {q}}} \ right) \ right)}}.}

Software statistic R

Calculul ANOVA cu software-ul R se efectuează în diferite moduri: în funcție de datele care urmează să fie analizate. Înainte de a continua cu calculul real, este necesar să se verifice următoarele ipoteze:

Independența scorurilor observate (dacă subiecții sunt independenți unii de alții, suntem în opțiunea „ÎNTRE CAZE”; dacă presupunerea nu este respectată (adică se fac măsurători multiple la aceiași subiecți) suntem în opțiunea „ÎN CAZ”) care urmează modalitatea calculului propriu);
normalitatea distribuției;
homoskedasticitate (sau omogenitatea variațiilor);

A doua ipoteză poate fi evaluată în două moduri:

Testul normalității Kolmogorov-Smirnov:

 > ks.test (x, pnorm, mean (x), sd (x))

unde este:

x este variabila a cărei normalitate urmează să fie evaluată;
media (x) calculează media acestei distribuții;
sd (x) calculează abaterea standard a acestei distribuții;
pnorm compară distribuția cu o distribuție teoretică normală cu medie = medie (x) și deviație standard = sd (x).

Din ieșirea returnată, se citește doar valoarea p: trebuie să fie mai mare sau egală cu 0,05 (sau cu un alfa predeterminat). Ipoteza nulă susține de fapt că distribuția este normală;

Testul de normalitate Shapiro-Wilk:

 > shapiro.test (x)

această comandă necesită analizarea numai a variabilei. Același discurs ca înainte pentru rezultat și ipotezele testului.

A treia ipoteză, omogenitatea variațiilor (adică a diferențelor considerate împărțite în funcție de nivelurile factorului), se calculează după cum urmează:

 > bartlett.test (y ~ A)

unde este:

y este variabila dependentă;
A este factorul;

în ceea ce privește ieșirea, este suficient să citiți valoarea p și să vă asigurați că este mai mare sau egală cu un nivel alfa predeterminat (implicit este 0,05). De fapt, ipoteza nulă susține că toate varianțele sunt omogene între ele. Dacă această ipoteză nu este respectată, este necesar să se calculeze ANOVA cu corecția lui Welch.

Odată ce ipotezele au fost verificate, puteți continua cu ANOVA propriu-zisă.

Model între cazuri

În acest caz este suficient să utilizați următoarea comandă:

 > anova (lm (y ~ A))

a cărei ipoteză nulă este că diferitele mijloace ale grupurilor factorului sunt egale.

Rețineți că ipoteza alternativă susține că cel puțin una este diferită de celelalte, nu neapărat toate diferite una de cealaltă.

dacă avem mai mulți factori putem scrie:

 > anova (lm (y ~ A * B)) dacă vrem să luăm în considerare interacțiunile dintre diferiți factori 
> anova (lm (y ~ A + B)) dacă nu dorim să luăm în considerare interacțiunea;

Model în cazuri

În acest caz trebuie să verificăm cele 3 ipoteze de mai sus plus o a patra: ipoteza de sfericitate (care susține că covarianțele sunt omogene). Pentru această verificare:

 > mauchly.test (lm (y ~ x) ~ 1, X = ~ 1)

iar valoarea p este evaluată: trebuie să fie mai mare sau egală cu nivelul de semnificație impus: ipoteza nulă este cea care susține sfericitatea. dacă nu este verificat, calculul se efectuează cu corecția Greenhouse-Geisser

dacă această ipoteză este verificată, trebuie doar să introduceți comanda:

 > rezumat (aov (y ~ A))

și se observă valoarea p: și aici ipoteza nulă argumentează în favoarea egalității între medii.

Bibliografie

Zani S.; Analiza datelor statistice, vol. THE; 1994; Editor Giuffrè; Milano
Gili A., Frosini BV, Zanardi G. și Zenga M.; Variabilitate și concentrare, în: contribuția italiană la metodologia statistică; 1987; Cleup; Padova
Brasini S., Tassinari F., Tassinari G.; Marketing și publicitate; 1993; Moara; Bologna
Rao CR; Diversitatea: măsurarea, descompunerea, repartizarea și analiza acesteia; 1982; Sankhya vol. 44 seria A paginile 1-12

Elemente conexe

Analiza de corelație canonică , din care analiza varianței care poate fi văzută ca un caz particular
George W. Snedecor
Regresie liniara
Ronald Fisher
Statistici
Test de ipoteză
Variabilă convenabilă

Alte proiecte

Wikimedia Commons conține imagini sau alte fișiere despre Analiza varianței

Portal de statistici : accesați intrările Wikipedia care se ocupă de statistici

V · D · M Statistici
Statisticile descriptive	Medii ( aritmetice · geometrice · armonioase · Putere · aritmetice și geometrice · Integrale ) · Mediană · Modă · interval de variație · varianță · Deviație standard · deviație absolută medie · Simetrie · Diferență medie ( absolută · logaritmică ) · Curtosi
Inferință statistică	Test de testare a ipotezelor · Semnificație · Ipoteză nulă / alternativă · Eroare I și tip II · Test Q · U test · Test t · Z Test · Probabilitate maximă · Standardizare · valoare p · Analiza variației
Analiza supraviețuirii	Rată de eșec · Estimator Kaplan-Meier · test log-rank
Analiza regresiei	Regresie liniară · Regresie neliniară · variabile instrumentale · metodă generalizată a momentelor · Regresie logistică · Model probit · Model logit

V · D · M Proiectarea experimentelor
Metodă științifică	Experiment științific · Planificare statistică · Control · validitate internă și externă · Unitate experimentală · Dublu orb · Design optim : Bayesian · Alocare aleatorie · randomizare · randomizare restricționată · Replicare · Dimensiunea eșantionului
Tratament și bloc	Confidențialitate · efect Dimensiuni · Contrast · Interacțiune · confuză · Ortogonalitate · Blocare · covariabil · enervant Variabilă
Modele și inferență	Regresia liniară · mici pătrate · bayesiene · Modelul componentelor varianței · Mixtă model · Ierarhic Model: bayesiene · analiza varianței (ANOVA) · teorema lui Cochran · MANOVA (multivariată) · ANCOVA (covarianță) · Localizarea de testare · Comparații multiple
Proiecta Complet randomizat	Factorial · factorială fracționată · Plackett-Burman · Taguchi · Metodologia suprafeței de răspuns · modelarea polinomiale și rațională a funcțiilor · Box-Behnken · Compozit central · blocare · Proiectarea unui bloc randomizat generalizat (GRBD) · Piața Latină · greco-latină Piața · Vector ortogonal · hipercub latin Proiectare măsuri repetate · Studiu încrucișat · Studiu controlat aleatoriu · Analiză secvențială · Test de raport de probabilitate secvențială