Testul exact al lui Fisher

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Testul exact al lui Fisher (sau testul Fisher-Yates , testul Fisher-Irwin , testul chi² exact [1] ) este un test de verificare a ipotezelor utilizat în statistici non-parametrice în situații cu două variabile nominale dihotomice și eșantioane mici. Poartă numele creatorului său Ronald Fisher .

Acest test non-parametric este utilizat pentru a verifica dacă datele dihotomice ale a două eșantioane rezumate într-un tabel de contingență 2x2 sunt compatibile cu ipoteza nulă (H 0 ) conform căreia populațiile originale ale celor două eșantioane au aceeași subdiviziune dihotomică și că diferențele observate cu eșantionul de date se datorează pur și simplu întâmplării.

Dacă probele sunt suficient de mari și nicio celulă nu are o valoare mai mică de 5, atunci poate fi utilizat testul chi-pătrat cu 1 grad de libertate . În timp ce ultimul test este precis asimptotic doar pentru dimensiuni foarte mari de eșantioane, prezentul test propus de Fisher este, așa cum sugerează și numele, întotdeauna corect.

Testul exact al lui Fisher necesită două variabile nominale împărțite fiecare în doar două categorii. De exemplu, prima variabilă ar putea fi „sex” cu cele două categorii „femeie” și „bărbat”, iar a doua variabilă ar putea fi „urmează o dietă” cu cele două categorii „da” și „nu”. În acest caz, se presupune că procentul bărbaților care urmează o dietă este egal cu procentul dintre femei. Datele pot fi următoarele:

bărbați femei total
la dietă 1 9 10
nu la dietă 11 3 14
total 12 12 24

Aceste date nu sunt adecvate pentru a fi analizate cu testul chi pătrat, deoarece valoarea așteptată este la limita în unele celule (5 în funcție de unele, 10 în funcție de altele).

Pentru a descrie testul lui Fisher este util să se introducă următoarea notație, în care literele a, b, c și d indică valorile din celule și n este suma totală. Tabelul de urgență ar fi descris astfel:

bărbați femei total
la dietă la b a + b
nu la dietă c d c + d
total a + c b + d n

Ronald Fisher a arătat că probabilitatea de a obține aceste valori (legate de sumele de rând și coloană observate efectiv) urmează variabila aleatorie hipergeometrică și este egală cu:

Această formulă oferă probabilitățile exacte de observare a valorilor a, b, c, d (date a + b , a + c , c + d , b + d ) dacă ipoteza nulă menționată mai sus ar fi adevărată.

Pentru a verifica dacă valorile observate sunt excesiv de diferite de ceea ce a prezis ipoteza nulă, se adună probabilitățile a ceea ce a fost observat și a tuturor cazurilor și mai extreme. În exemplul nostru, singurul caz și mai extrem este dat de:

bărbați femei total
la dietă 0 10 10
nu la dietă 12 2 14
total 12 12 24

Pentru primul tabel probabilitatea este

în timp ce pentru a doua

adunând împreună obținem:

p = p 0 + p 1 = 0,00138 = 0,14%

care înseamnă:

de sine
ipoteza nulă este adevărată
asa de
numai în 14 din 10.000 de experimente s-ar obține astfel de valori discordante între bărbați și femei.

Acesta este rezultatul testului cu ipoteza alternativă unilaterală. Testul aplicat ipotezei alternative cu două cozi ar indica o probabilitate de 0,002759 (0,28%).

Deoarece calculul este adesea foarte laborios, de obicei apelăm la tabele cu valorile deja precalculate sau la calculator, de exemplu folosind software-ul aplicației pentru statistici.

Notă

Elemente conexe