Analiza variatiei

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Analiza varianței L (ANOVA, din „ Analiza engleză a varianței) este un set de statistici tehnice care fac parte din statistici inferențiale care permit compararea a două sau mai multe grupuri de date prin compararea variabilității interne din aceste grupuri cu variabilitatea dintre grupuri.

Ipoteza nulă prezice de obicei că datele tuturor grupurilor au aceeași origine, adică aceeași distribuție stocastică și că diferențele observate între grupuri se datorează doar întâmplării.

Aceste tehnici sunt utilizate atunci când variabilele explicative sunt nominale (discrete). Nu există nimic care să împiedice utilizarea acestor tehnici chiar și în prezența variabilelor explicative de tip ordinal sau continuu, dar în acest caz sunt mai puțin eficiente decât tehnicile alternative (de exemplu: regresia liniară ).

Ipoteza de bază

Ipoteza din spatele analizei varianței este că datele grupuri, este posibil să se împartă varianța în două componente: Varianța în cadrul grupurilor (numită și Varianța în interior ) și Varianța între grupuri ( Varianța între ). Motivul care împinge să facă această distincție este convingerea, din partea cercetătorului, că anumite fenomene găsesc explicații în caracteristicile grupului căruia îi aparțin. Un exemplu tipic, preluat din analize sociologice , se găsește în studiul grupurilor de dependenți de droguri. În acest caz, analiza varianței este utilizată pentru a determina dacă mai multe grupuri pot fi într-un fel sau altul semnificativ diferite (varianța dintre contribuie semnificativ la varianța totală - fenomenul este legat de caracteristicile specifice fiecărui grup, cum ar fi zona de reședință) sau, invers, sunt omogene (varianța din interior contribuie semnificativ la varianța totală - fenomenul este legat de caracteristicile tuturor grupurilor). Cu alte cuvinte, comparația se bazează pe ideea că dacă variabilitatea intra-grup este relativ mare în comparație cu variabilitatea între grupuri, probabil că diferența dintre aceste grupuri este doar un rezultat al variabilității interne.

Cel mai cunoscut set de tehnici se bazează pe comparația varianței și utilizează variabile de test distribuite, cum ar fi variabila aleatoare F. Fisher-Snedecor.

Diferitele tehnici sunt împărțite în funcție de modelul care include:

  • o singură cauză: de exemplu: gustul unui aliment depinde de culoarea acestuia;
  • mai multe cauze: de exemplu: succesul academic depinde atât de gradul de interes individual în studierea și obținerea de note bune, cât și de nivelul de educație al părinților;
  • interacțiunea între cauze multiple: de exemplu: viteza de vindecare depinde de două medicamente, care totuși se anulează (sau se întăresc) reciproc.

Discuție analitică

Relația dintre varianța totală referit la unități și varianțe calculate pe grupe individuale (cu ) Rezultă a fi:

Prima însumare este varianța din interior, în timp ce a doua este varianța dintre. Deci, în mod echivalent, putem scrie:

unde este este media totală a unități, egale cu media parțială a fiecărui grup cu greutăți egale cu frecvențele relative ale grupului relativ .

La rândul lor, mediile parțiale de valori din -al grupul este dat de:

Mai mult, avem:

Varianța din interior este egală cu media ponderată a varianțelor parțiale calculate în fiecare grup. Greutățile sunt egale cu frecvențele lor relative .

Varianța dintre este egală cu varianța ponderată a mediilor parțiale. Greutățile sunt egale cu frecvențele relative ale grupului.

Exemplu de analiză simplă a varianței

În acest exemplu avem grupuri de număr egal (pentru a simplifica exemplul), cu , indicat cu Și unități statistice (adică numărul de observații experimentale totale).

Modelul prezice că

cu indicând grupul e .

Ipoteza nulă prevede că:

  • valorile observate derivă dintr-odistribuție gaussiană ;
  • cu aceeași medie și aceeași varianță ;
  • este același pentru toate grupurile (și, prin urmare, nul).

Datele observate în cele patru grupuri sunt:

j LA B. C. D.
1 0,72 0,75 0,68 0,78
2 0,69 0,85 0,70 0,86
3 0,71 0,82 0,67 0,87
4 0,70 0,80 0,65 0,84
5 0,68 0,88 0,70 0,85

Haideți acum:

  • : suma abaterilor pătrate ale mijloacelor grupurilor individuale ( ) din media generală ;
  • : suma deviațiilor pătrate ale valorilor unice decât media a grupului căruia îi aparțin;
  • : suma abaterilor pătrate ale tuturor valorilor individuale în raport cu media generală .

Adică:

Variabila de testare devine:

unde este:

este numărul de grupuri (în exemplul nostru: );
numărul grupurilor individuale (în cazul nostru pentru fiecare grup);
, acesta este numărul total de cazuri observate (în cazul nostru ).

În exemplu, obținem că:

prin urmare

Această valoare este comparată cu valorile unei variabile aleatorii Snedecor F cu Și grade de libertate . Dacă acceptați un procent fals pozitiv din această valoare este:

Prin urmare, fiind ipoteza nulă care a prezis absența efectelor este respinsă și se afirmă că cel mai probabil cel puțin unul dintre cele patru grupuri este diferit de celelalte. Poate că toate grupurile sunt diferite între ele, poate doar unul dintre ele.

Un test (propus pentru prima dată de Ronald Fisher ) face posibilă determinarea celei mai mici diferențe semnificative între media a două grupuri, comparându-le unul cu unul.

Această diferență este:

Software statistic R

Calculul ANOVA cu software-ul R se efectuează în diferite moduri: în funcție de datele care urmează să fie analizate. Înainte de a continua cu calculul real, este necesar să se verifice următoarele ipoteze:

  1. Independența scorurilor observate (dacă subiecții sunt independenți unii de alții, suntem în opțiunea „ÎNTRE CAZE”; dacă presupunerea nu este respectată (adică se fac măsurători multiple la aceiași subiecți) suntem în opțiunea „ÎN CAZ”) care urmează modalitatea calculului propriu);
  2. normalitatea distribuției;
  3. homoskedasticitate (sau omogenitatea variațiilor);

A doua ipoteză poate fi evaluată în două moduri:

  • Testul normalității Kolmogorov-Smirnov:
 > ks.test (x, pnorm, mean (x), sd (x))

unde este:

  • x este variabila a cărei normalitate urmează să fie evaluată;
  • media (x) calculează media acestei distribuții;
  • sd (x) calculează abaterea standard a acestei distribuții;
  • pnorm compară distribuția cu o distribuție teoretică normală cu medie = medie (x) și deviație standard = sd (x).

Din ieșirea returnată, se citește doar valoarea p: trebuie să fie mai mare sau egală cu 0,05 (sau cu un alfa predeterminat). Ipoteza nulă susține de fapt că distribuția este normală;

  • Testul de normalitate Shapiro-Wilk:
 > shapiro.test (x)

această comandă necesită analizarea numai a variabilei. Același discurs ca înainte pentru rezultat și ipotezele testului.

A treia ipoteză, omogenitatea variațiilor (adică a diferențelor considerate împărțite în funcție de nivelurile factorului), se calculează după cum urmează:

 > bartlett.test (y ~ A)

unde este:

  • y este variabila dependentă;
  • A este factorul;

în ceea ce privește ieșirea, este suficient să citiți valoarea p și să vă asigurați că este mai mare sau egală cu un nivel alfa predeterminat (implicit este 0,05). De fapt, ipoteza nulă susține că toate varianțele sunt omogene între ele. Dacă această ipoteză nu este respectată, este necesar să se calculeze ANOVA cu corecția lui Welch.

Odată ce ipotezele au fost verificate, puteți continua cu ANOVA propriu-zisă.

Model între cazuri

În acest caz este suficient să utilizați următoarea comandă:

 > anova (lm (y ~ A))

a cărei ipoteză nulă este că diferitele mijloace ale grupurilor factorului sunt egale.

Rețineți că ipoteza alternativă susține că cel puțin una este diferită de celelalte, nu neapărat toate diferite una de cealaltă.

dacă avem mai mulți factori putem scrie:

 > anova (lm (y ~ A * B)) dacă vrem să luăm în considerare interacțiunile dintre diferiți factori 
> anova (lm (y ~ A + B)) dacă nu dorim să luăm în considerare interacțiunea;

Model în cazuri

În acest caz trebuie să verificăm cele 3 ipoteze de mai sus plus o a patra: ipoteza de sfericitate (care susține că covarianțele sunt omogene). Pentru această verificare:

 > mauchly.test (lm (y ~ x) ~ 1, X = ~ 1)

iar valoarea p este evaluată: trebuie să fie mai mare sau egală cu nivelul de semnificație impus: ipoteza nulă este cea care susține sfericitatea. dacă nu este verificat, calculul se efectuează cu corecția Greenhouse-Geisser

dacă această ipoteză este verificată, trebuie doar să introduceți comanda:

 > rezumat (aov (y ~ A))

și se observă valoarea p: și aici ipoteza nulă argumentează în favoarea egalității între medii.

Bibliografie

  • Zani S.; Analiza datelor statistice, vol. THE; 1994; Editor Giuffrè; Milano
  • Gili A., Frosini BV, Zanardi G. și Zenga M.; Variabilitate și concentrare, în: contribuția italiană la metodologia statistică; 1987; Cleup; Padova
  • Brasini S., Tassinari F., Tassinari G.; Marketing și publicitate; 1993; Moara; Bologna
  • Rao CR; Diversitatea: măsurarea, descompunerea, repartizarea și analiza acesteia; 1982; Sankhya vol. 44 seria A paginile 1-12

Elemente conexe

Alte proiecte

Statistici Portal de statistici : accesați intrările Wikipedia care se ocupă de statistici