Testul Wilcoxon-Mann-Whitney

Testul Wilcoxon și testul Mann-Whitney (cunoscut și sub numele de testul Mann-Whitney U ) sunt două dintre cele mai puternice teste neparametrice pentru verificarea, în prezența valorilor ordinale dintr-o distribuție continuă , dacă două probe statistice provin din aceeași populație.

Testul Wilcoxon și testul Mann Whitney sunt două teste neparametrice diferite: primul este pentru eșantioane neindependente, al doilea pentru eșantioane independente.

Teste alternative

Dacă testul Wilcoxon este aplicat în prezența datelor pentru care ar putea fi utilizat testul t parametric al studentului , atunci eficiența sa energetică este de aproximativ 95% atât pentru probele mici, cât și pentru cele mari.

În funcție de mărimea eșantionului, poate fi preferat testul Kolmogorov-Smirnov .

Declarația formală a obiectului testat

Deși se susține în mod obișnuit că testele W și MW sunt utile pentru detectarea diferențelor în mediane, acest lucru nu este exact adevărat. Mai degrabă MW determină posibilitatea de a obține mai multe observații într-o populație decât în alta. Ipoteza nulă din testul Mann-Whitney este că cele două eșantioane sunt extrase dintr-o singură populație și, prin urmare, din acest motiv distribuțiile probabilității lor sunt egale. Ipoteza alternativă este că una dintre probe este stocastic mai mare . Acest lucru necesită ca cele două eșantioane să fie independente din punct de vedere statistic și ca observațiile să fie cel puțin ordinale sau cantitative, continue sau discrete.

În cea mai generală formulare, se poate spune că testul permite să evalueze dacă ipoteza nulă că probabilitatea unei observații dintr-o populație (X) depășește o observație din a doua populație (Y) este 0,5: P (X> Y ) = 0,5 față de ipoteza alternativă P (X> Y)> 0,5, P (X> Y) <0,5 sau P (X> Y) ≠ 0,5.

În schimb, Wilcoxon face parte din ipoteza că cele două eșantioane sunt dependente.

O altă interpretare generală alternativă este că testul determină dacă estimatorul Hodges-Lehmann al diferenței de tendință centrală dintre cele două populații este zero. Estimarea Hodges-Lehmann pentru această problemă cu două eșantioane este mediana tuturor diferențelor posibile între o observație în primul eșantion și o observație în al doilea eșantion.

Testul este uneori interpretat în termeni de a demonstra o schimbare în localizare; în ciuda tuturor, această interpretare specială este valabilă numai atunci când distribuțiile celor două populații sunt identice, cu excepția unei posibile schimbări (de ex. ƒ ₁ ( x ) = ƒ ₂ ( x + δ )).

Asumat

MW: Cele două probe studiate prin test sunt independente reciproc, iar observațiile din cadrul fiecărei probe sunt independente; W: Cele două probe sunt dependente;
Observațiile sunt comparabile (de exemplu, pentru oricare două observații, se poate determina dacă sunt egale sau, dimpotrivă, care dintre cele două este mai mare).

În plus, validitatea strictă a tabelelor standard de valori critice ne putem baza pe presupunerea că funcția de distribuție a probabilității cumulative subiacente a ambelor eșantioane este continuă, astfel încât conexiunile sunt în esență imposibile. În cazurile în care această ipoteză nu este validă, există o alegere între utilizarea procedurilor de ajustare pentru a ține cont de legături într-un mod rezonabil, dar adecvat sau utilizarea tehnicilor de calcul, cum ar fi eșantionarea .

Calcule s

Testul implică calcularea unei statistici , de obicei numită U , care are o distribuție cunoscută sub ipoteza nulă . În cazul eșantioanelor mici, distribuția este tabelată, dar pentru dimensiunile eșantionului peste ~ 20 există o bună aproximare folosind distribuția normală . Unele cărți tabelează statistici echivalente cu U , cum ar fi suma rangurilor dintr-unul din eșantioane, mai degrabă decât U în sine.

Testul U este inclus în majoritatea pachetelor statistice moderne. De asemenea, este ușor de calculat manual, în special pentru probele mici. Există două moduri de a face acest lucru:

Pentru probele mici se recomandă utilizarea unei metode directe. Este foarte rapid și oferă informații despre semnificația statisticii U.

Alegeți eșantionul pentru care rangurile par a fi mai mici (Singurul motiv pentru care faceți acest lucru este să faceți calculele mai ușoare). Denumiți acest „eșantion 1” și apelați celălalt eșantion „eșantionul 2.”
Luând fiecare observație din eșantionul 1, numărați numărul de observații din eșantionul "eșantionul 2" care sunt mai mici (în valoare) decât "eșantionul 1" (numărați ca 1/2 pentru fiecare observație care poate fi considerată egală).
Totalul acestor numărări este valoarea U.

Formulă

Pentru eșantioane mai mari, se poate utiliza o formulă:

Toate observațiile trebuie să fie aranjate într-o singură serie de rang. Aceasta implică clasificarea tuturor observațiilor fără a fi nevoie să ia în considerare în ce eșantion se află.
Adăugați împreună rangurile atribuite observațiilor provenite din „eșantionul 1”. Suma rangurilor din „eșantionul 2” urmează prin calcul, deoarece suma tuturor rangurilor este egală ${\frac {N(N+1)}{2}}$ ${\ displaystyle {\ frac {N (N + 1)} {2}}}$ ${\ frac {N (N + 1)} {2}}$ unde „ N ” este numărul total de observații.

U este apoi furnizat de:

U_{1}=R_{1}-{n_{1}(n_{1}+1) \over 2}

{\ displaystyle U_ {1} = R_ {1} - {n_ {1} (n_ {1} +1) \ peste 2}}

{\ displaystyle U_ {1} = R_ {1} - {n_ {1} (n_ {1} +1) \ peste 2}}

unde n ₁ este dimensiunea eșantionului pentru "eșantionul 1", iar R ₁ este suma rangurilor din "eșantionul 1".

Rețineți că nu este specificat ce eșantion este considerat „eșantion 1”.

O formulă la fel de valabilă pentru U este următoarea:

U_{2}=R_{2}-{n_{2}(n_{2}+1) \over 2}.

{\ displaystyle U_ {2} = R_ {2} - {n_ {2} (n_ {2} +1) \ peste 2}.}

{\ displaystyle U_ {2} = R_ {2} - {n_ {2} (n_ {2} +1) \ peste 2}.}

Valoarea mai mică a lui U ₁ și U ₂ este cea utilizată la consultarea tabelelor de semnificație. Suma celor două valori este dată de

U_{1}+U_{2}=R_{1}-{n_{1}(n_{1}+1) \over 2}+R_{2}-{n_{2}(n_{2}+1) \over 2}.

{\ displaystyle U_ {1} + U_ {2} = R_ {1} - {n_ {1} (n_ {1} +1) \ peste 2} + R_ {2} - {n_ {2} (n_ {2} } +1) \ peste 2}.}

{\ displaystyle U_ {1} + U_ {2} = R_ {1} - {n_ {1} (n_ {1} +1) \ peste 2} + R_ {2} - {n_ {2} (n_ {2} } +1) \ peste 2}.}

Știind că R ₁ + R ₂ = N ( N + 1) / 2, avem că suma corespunde

U_{1}+U_{2}={N(N+1) \over 2}-{n_{1}(n_{1}+1) \over 2}-{n_{2}(n_{2}+1) \over 2}

{\ displaystyle U_ {1} + U_ {2} = {N (N + 1) \ peste 2} - {n_ {1} (n_ {1} +1) \ peste 2} - {n_ {2} (n_ {2} +1) \ peste 2}}

{\ displaystyle U_ {1} + U_ {2} = {N (N + 1) \ peste 2} - {n_ {1} (n_ {1} +1) \ peste 2} - {n_ {2} (n_ {2} +1) \ peste 2}}

U_{1}+U_{2}={N^{2}+N \over 2}-{n_{1}^{2}+n_{2}^{2} \over 2}-{n_{1}+n_{2} \over 2}

{\ displaystyle U_ {1} + U_ {2} = {N ^ {2} + N \ over 2} - {n_ {1} ^ {2} + n_ {2} ^ {2} \ over 2} - { n_ {1} + n_ {2} \ peste 2}}

{\ displaystyle U_ {1} + U_ {2} = {N ^ {2} + N \ over 2} - {n_ {1} ^ {2} + n_ {2} ^ {2} \ over 2} - { n_ {1} + n_ {2} \ peste 2}}

mai mult, știind că N = n ₁ + n ₂ obținem

U_{1}+U_{2}={n_{1}^{2}+n_{2}^{2}+2n_{1}n_{2} \over 2}+{n_{1}+n_{2} \over 2}-{n_{1}^{2}+n_{2}^{2} \over 2}-{n_{1}+n_{2} \over 2}

{\ displaystyle U_ {1} + U_ {2} = {n_ {1} ^ {2} + n_ {2} ^ {2} + 2n_ {1} n_ {2} \ over 2} + {n_ {1} + n_ {2} \ over 2} - {n_ {1} ^ {2} + n_ {2} ^ {2} \ over 2} - {n_ {1} + n_ {2} \ over 2}}

{\ displaystyle U_ {1} + U_ {2} = {n_ {1} ^ {2} + n_ {2} ^ {2} + 2n_ {1} n_ {2} \ over 2} + {n_ {1} + n_ {2} \ over 2} - {n_ {1} ^ {2} + n_ {2} ^ {2} \ over 2} - {n_ {1} + n_ {2} \ over 2}}

simplificarea sumei se obține

U_{1}+U_{2}=n_{1}n_{2}

{\ displaystyle U_ {1} + U_ {2} = n_ {1} n_ {2}}

{\ displaystyle U_ {1} + U_ {2} = n_ {1} n_ {2}}

Valoarea maximă a U este produsul mărimilor eșantionului pentru cele două eșantioane. În acest caz, „celălalt” U ar fi egal cu zero. Mann-Whitney U este echivalent cu aria de sub curba caracteristică de funcționare a receptorului care poate fi calculată cu ușurință

AUC_{1}={U_{1} \over n_{1}n_{2}}

{\ displaystyle AUC_ {1} = {U_ {1} \ over n_ {1} n_ {2}}}

{\ displaystyle AUC_ {1} = {U_ {1} \ over n_ {1} n_ {2}}}

Elemente conexe

linkuri externe

( EN ) Test Wilcoxon-Mann-Whitney , în Encyclopedia Britannica , Encyclopædia Britannica, Inc.

Portal de statistici : accesați intrările Wikipedia care se ocupă de statistici

V · D · M Statistici
Statisticile descriptive	Medii ( aritmetice · geometrice · armonioase · Putere · aritmetice și geometrice · Integrale ) · Mediană · Modă · interval de variație · varianță · Deviație standard · deviație absolută medie · Simetrie · Diferență medie ( absolută · logaritmică ) · Curtosi
Inferință statistică	Test de testare a ipotezelor · Semnificație · Ipoteză nulă / alternativă · Eroare I și tip II · Test Q · U test · Test t · Z Test · Probabilitate maximă · Standardizare · valoare p · Analiza variației
Analiza supraviețuirii	Rată de eșec · Estimator Kaplan-Meier · test log-rank
Analiza regresiei	Regresie liniară · Regresie neliniară · variabile instrumentale · metodă generalizată a momentelor · Regresie logistică · Model probit · Model logit