Test de ipoteză

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În statistici, testele de testare a ipotezelor sunt folosite pentru a testa validitatea unei ipoteze.

Prin ipoteză se înțelege o afirmație care are ca obiect evenimentele din lumea reală, care se pretează a fi confirmată sau refuzată de datele observate experimental.

Metoda prin care se evaluează fiabilitatea unei ipoteze este metoda experimentală . Aceasta din urmă constă în determinarea consecințelor unei ipoteze în termeni de evenimente observabile și în evaluarea faptului dacă realitatea observată este de acord sau nu cu ipoteza făcută asupra ei.

Explicație intuitivă

În cel de-al doilea caz, situația se schimbă pe măsură ce intervine un element nou, acesta este cazul și / sau eroarea de măsurare. Să presupunem că aveți o monedă cu două fețe marcate cu capete și cozi. Dorind să verifice ipoteza echilibrării monedei, se fac 20 de aruncări și se numără cele care dau capete. Consecința echilibrării constă în observarea unei valori a capetelor în jurul valorii de 10. Cu toate acestea, chiar și în ipoteza echilibrării nu poate fi exclus să se respecte 20 de capete. Pe de altă parte, ipoteza de echilibrare este logic compatibilă cu un număr variabil de capete între 0 și 20. În acest context, orice decizie privind ipoteza care trebuie verificată implică un risc de eroare.

În procesul de verificare a ipotezei echilibrului banilor, se consideră că numărul total de capete, dacă moneda este echilibrată, este o variabilă discretă aleatorie cu distribuție binomială . Acest model matematic ne permite să asociem o măsură de probabilitate cu fiecare rezultat experimental posibil.

Acum, să presupunem că am făcut experimentul și am numărat 15 capete din 20 de fotografii: cât de departe este acest rezultat de valoarea medie a distribuției ? Este suficientă această distanță pentru a respinge ipoteza că banii ar fi bine echilibrați? Valoarea medie a distribuției Și , și pentru a evalua distanța dintre valoarea experimentală și cea așteptată, se evaluează probabilitatea de a obține o valoare experimentală egală cu 15 sau mai mare. Deoarece este un test în jurul valorii medii, trebuie să luăm în considerare și probabilitatea de a obține o valoare mai mică sau egală cu 5, prin specularitate. În simboluri:

Această valoare p este probabilitatea de a obține o valoare la fel de extremă sau mai extremă decât cea observată, presupunând că moneda a fost de fapt echilibrată. În cazul nostru, este egal cu 0,041 sau 4,1%. Judecând această probabilitate scăzută, respingem ipoteza echilibrării monedei în cauză, considerând riscul de a face o eroare de judecată acceptabil scăzută. Probabilitatea de a respinge ipoteza testată, dacă ar fi corectă, este egală cu valoarea maximă p pe care am fi fost dispuși să o acceptăm. Și în acest moment devine clar de ce este necesar să adăugăm probabilitățile de a obține 5 capete sau mai puțin, la cele de a obține cel puțin 15: dacă am fi numărat 5 sau mai puține capete, am fi considerat în egală măsură ca moneda să fie dezechilibrată, deci este corect ca cele două probabilități să fie adunate împreună.

Teoria testului ipotezei Fisher

Exemplul dat mai sus este un test de ipoteză potrivit lui Fisher , care a compus teoria fondatoare în jurul anului 1925 [1] , influențat în special de teoriile lui Karl Popper în filozofia științei și, în mod specific, de principiul falsificabilității . Popper a susținut că cunoștințele științifice avansează prin crearea de ipoteze care ulterior sunt negate și înlocuite cu ipoteze noi, mai generale și precise. Fisher a propus o metodă statistică de testare a ipotezelor care necesită specificarea unei ipoteze falsificabile, păstrată adevărată până la proba contrară. Această ipoteză se numește ipoteză nulă și este indicată cu simbolul H 0 , iar testul vizează verificarea faptului dacă datele infirmă această ipoteză.

În funcție de tipul de problemă cu care ne confruntăm, vom alege un fel de procedură validă ca test de ipoteză, în exemplul anterior am aplicat un test binomial , dar în orice caz, metoda aleasă este calcularea unei valori, funcția eșantionului, care are ca obiectiv măsurarea aderenței sale la ipoteza nulă. Această funcție se numește statistică de testare . Distribuția statisticii testului este complet determinată sub ipoteză nulă.

Punctul central al testului ipotezei conform lui Fisher este conceptul de semnificație statistică , reprezentat de valoarea p (adesea menționată de numele englez de valoare p ). care, așa cum s-a definit deja mai sus, este probabilitatea, sub H 0 , de a obține o valoare a statisticii testului care este egală sau mai extremă decât cea observată. Prin urmare, valoarea p rezumă semnificația dovezilor statistice față de ipoteza nulă: cu cât p este mai mic, cu atât sunt mai mari aceste dovezi. După ce am observat o anumită valoare p, putem admite că H 0 este adevărat și că a avut loc un eveniment astfel încât probabilitatea de a observa una la fel de extremă este la fel de mică ca p este sau putem respinge H 0 crezând că nu reușește să explice rezultatele. În general, o a doua ipoteză alternativă este avansată din date, atunci când H 0 este respins [1] .

Nivelul de semnificație și regiunea respingerii

Distribuirea statisticii de testare binomială X a exemplului monedei; regiunea de respingere este evidențiată în roșu și sunt raportate valorile critice. În cazul unui test cu coada dreaptă, coada din stânga iese din regiunea de respingere și punctul 14, evidențiat în galben, intră în ea.

Deși nu este necesar conform lui Fisher [1] , înainte de a calcula valoarea experimentală a statisticii testului, se recomandă în general alegerea nivelului de semnificație , indicat în mod convențional cu simbolul α. Această alegere este justificată de natura stocastică a rezultatului testului: nu este posibil să se anuleze probabilitatea de a respinge H 0 din greșeală, deci dacă doriți să cunoașteți această probabilitate, trebuie stabilită în prealabil. Această valoare stabilită este tocmai α. Utilizarea acestuia este de a discrimina valoarea p: se spune că rezultatul testului este semnificativ dacă p <α, în caz contrar este considerat nesemnificativ. H 0 este respins dacă rezultatul este semnificativ.

Cu cât este mai mare încrederea plasată în ipoteza nulă, cu atât sunt mai mari dovezile necesare pentru respingerea acesteia, iar cu atât mai mică trebuie să fie α, alegerile tipice sunt 0,1 (foarte slabe), 0,05 (extrem de utilizate, chiar convenționale - erudiții avertizează să nu aleagă această valoare necritic , numai după obicei) și 0,01 (în cazul în care sunt necesare dovezi puternice împotriva H 0 ).

Având în vedere un anumit nivel de semnificație, setul de valori ale statisticii testului la care corespunde un p mai mic decât α se numește regiune de respingere . În exemplul anterior, pentru α = 0,05, regiunea de respingere a fost setul {0, 1, 2, 3, 4, 5, 15, 16, 17, 18, 19, 20} și invers versiunea {6, 7, ... 14} a fost așa-numita regiune de acceptare . În schimb, punctele care separă regiunile de respingere și de acceptare se numesc valori critice .

Un test cu două sau două cozi

În unele cazuri și, de asemenea, în exemplul monedei dezechilibrate, distribuția statisticii testului este simetrică și poate fi supusă unui test „cu două cozi”, ca în exemplul de mai sus, sau unul cu o coadă. Recurgem la a doua posibilitate dacă intenționăm să respingem ipoteza nulă numai atunci când observăm o valoare extremă mai mare decât media, dar nu mai mică, sau invers. În acest caz, vom concentra regiunea de respingere doar pe una din cozile de distribuție, aducând valoarea critică mai aproape de cea medie; atunci când calculăm valoarea p, nu va fi nevoie să adăugăm probabilitățile pentru ambele cozi.

Revenind la exemplul monedei, să presupunem că am bănuit deja că a fost părtinitoare spre cap înainte de a efectua experimentul, în acest caz am putea spune că ipoteza nulă, pe care intenționăm să o negăm, este aceea că probabilitatea capetele de ieșire sunt mai mici sau egale cu 0,5, mai degrabă decât neapărat egale cu 0,5. În acest fel, evităm respingerea ipotezei nule dacă obținem un număr redus de capete, dar dacă, dimpotrivă, numărăm mai mult de 10 capete, calculăm valoarea p fără a lua în considerare rezultatele posibile mai mici de 10. Ca ca rezultat, regiunea de respingere pierde elementele de la 1 la 5, dar se extinde la dreapta pentru a include 14.

Pentru a explica mai bine diferența dintre testele cu coadă stângă, cu coadă dreaptă și cu două cozi, se folosește uneori conceptul de ipoteză alternativă , notat cu simbolul H 1 . Pentru Fisher, singura ipoteză alternativă la H 0 este negarea sa, deci H 1 este implicită (dacă H 0 afirmă că probabilitatea de a lovi capete cu moneda este mai mică sau egală cu 0,5, atunci H 1 declară, dimpotrivă, că aceeași probabilitate este mai mare de 0,5) și nu trebuie specificată. Nu trebuie confundat cu ipoteza alternativă conform lui Neyman-Pearson, care este un concept foarte distinct [1] .

Testarea teoriei ipotezelor Neyman-Pearson

Analiza puterii testului în exemplul monedei, cu o singură coadă - ipoteza alternativă este 80% probabilitatea de a obține capete pe fiecare clapetă. Suma probabilităților evidențiate în roșu este a doua eroare de tip, suma celor în verde este puterea testului. În general, partea colorată este distribuția lui X sub ipoteză alternativă.

Jerzy Neyman și Egon Pearson au criticat teoria lui Fisher și au propus o alternativă, într-un fel, mai rigidă și mai puternică. Abordarea Neyman-Pearson susține o pregătire mai mare pentru colectarea datelor ( proiectarea experimentului ) și introduce o ipoteză alternativă complet specificată, în plus față de conceptele de eroare de primul și al doilea tip și puterea de testare . Din punct de vedere teoretic, abordarea lui Neyman-Pearson diferă de cea a lui Fisher prin faptul că pune mai mult accent pe ideea că testele de ipoteze sunt experimente repetabile, deci este mai potrivită pentru un context precum controlul calității decât pentru cercetarea științifică, unde experimentele rareori se repetă cu adevărat [1] .

Pentru un test conform lui Neyman-Person, este necesar să se precizeze în prealabil nu o ipoteză, ci două, diferite și alternative. Primul este H 0 , în timp ce al doilea este notat cu H 1 și se numește ipoteza alternativă . Distribuția statisticii testului este cunoscută atât sub H 0, cât și sub H 1 , statistica de test în sine trebuie aleasă astfel încât cele două distribuții să fie distincte. Cu toate acestea, cele două ipoteze nu sunt la același nivel: în practică se menține o abordare similară cu cea a lui Fisher, pentru care atenția se concentrează pe H 0 , în timp ce H 1 servește în esență la definirea puterii testului (și, prin urmare, la alegerea cel mai puternic) și calculați dimensiunea necesară a eșantionului .

După cum sa menționat deja, modul în care se efectuează un test statistic prezintă un risc de eroare. Două tipuri de erori sunt identificate în teoria Neyman-Pearson:

  1. respingeți H 0 când este adevărat, prima eroare de tip (α) (sau prima eroare de tip);
  2. nu respingeți H 0 când H 1 , o a doua eroare de tip (β) (sau a doua eroare de tip), este adevărată.

Odată ce a fost aleasă o primă eroare de tip α (echivalentă cu nivelul de semnificație conform lui Fisher), valoarea critică care separă H 0 de H 1 este determinată în mod unic. La rândul său, β depinde direct de această valoare. Când α este redus, valoarea critică se îndepărtează de H 0 și se apropie de H 1 , prin urmare β crește. Puterea testului este definită ca 1 - β.

Revenind la exemplul monedei în care regiunea de acceptare este dată de setul de valori {6, 7, ... 14}, probabilitatea de a respinge H 0 atunci când este adevărat a fost calculată ca 0,041. eroare de tip și este notată cu α. Pentru a evalua probabilitatea unei erori de tip 2 este necesar să specificați corect o ipoteză alternativă. Să presupunem că H 1 este că moneda arată capetele 80% din timp, caz în care distribuția statisticii testului este cunoscută și este .

Cu această distribuție de probabilitate, eroarea de tip 2 este calculată prin adăugarea probabilităților relative la valorile X ale zonei de acceptare, presupunând că H1 este adevărat. Prin urmare, se constată că probabilitatea căutată este egală cu aproximativ 0,20. Această probabilitate cuantifică riscul apariției erorii de tip 2 și este indicată în mod convențional cu β. Puterea testului este egală cu 1 - β = 0,8 și, prin urmare, exprimă capacitatea unui test statistic de a recunoaște falsitatea lui H 0 atunci când acest lucru este de fapt fals (iar H 1 este destul de adevărat). Puterea testului se aplică în practica statistică atunci când planifică un experiment .

Diferențele dintre setările teoretice

În utilizarea statistică actuală, abordările lui Fisher și Neyman-Pearson au fost îmbinate într-o practică sincretică care moștenește unele aspecte din teoria lui Fisher și unele din cea a lui Neyman-Pearson. Această abordare mixtă este controversată, deoarece este ambiguă și tinde să treacă cu vederea aspectele metodologice care disting cele două teorii și care sunt bine definite în teoria de referință respectivă. Este necesar să subliniem diferențele filosofice importante și interpretarea rezultatelor dintre cele două teorii luate în considerare, de exemplu [1] :

  • potrivit lui Fisher, alegerea este între respingerea sau nu a lui H 0 , fără o alternativă precisă, în timp ce conform lui Neyman-Pearson între două ipoteze trebuie să acceptăm H 0 sau altfel H 1
  • potrivit lui Fisher, alegerea finală dintre H 0 și respingerea sa este mai degrabă subiectivă, valoarea p prezintă diferite grade de semnificație și poate fi judecată fără a stabili în prealabil un nivel de semnificație; dimpotrivă, metoda Neyman-Pearson conduce la o alegere clară între H 0 și H 1
  • conform testelor de ipoteză Neyman-Pearson trebuie planificate cu atenție înainte de experiment, astfel încât rezultatul să fie valid din punct de vedere probabilistic; această rigoare nu este necesară conform lui Fisher: testul ipotezei poate fi făcut a posteriori, iar semnificația rezultatului poate fi judecată în consecință.

Au fost propuse abordări suplimentare și ar trebui menționate în special testele de ipoteză bayesiană , teoria deciziilor și teoria detectării semnalelor .

Notă

  1. ^ a b c d e f Jose D. Perezgonzalez, Fisher, Neyman-Pearson sau NHST? Un tutorial pentru predarea testării datelor , în Frontiers in Psychology , vol. 6, 3 martie 2015, DOI : 10.3389 / fpsyg.2015.00223 . Adus la 17 aprilie 2020 .

Elemente conexe

linkuri externe