Bias (statistici)

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În statistici , termenii părtinire (etimologie incertă [1] ), părtinire sau deviere [2] sunt utilizați cu referire la două concepte. Un eșantion părtinitor este un eșantion statistic în care probabilitatea de includere în eșantion a indivizilor aparținând populației depinde de caracteristicile populației studiate. Un estimator părtinitor este un estimator care, dintr-un anumit motiv, are o valoare așteptată, alta decât cantitatea pe care o estimează; un estimator non-părtinitor se numește estimator imparțial.

Deși termenul prejudecată poate avea o conotație negativă, acest lucru nu este neapărat adevărat în contextul statisticilor. O probă părtinitoare este în general nedorită; pe de altă parte, un estimator părtinitor poate fi de dorit în funcție de aplicații.

Eșantion distorsionat

Un eșantion este părtinitor dacă probabilitatea ca un membru al populației să fie inclus în eșantion depinde de caracteristicile care fac obiectul inferenței. Un eșantion părtinitor oferă, în general, o estimare falsă a caracteristicilor populației supuse inferenței. Dacă, de exemplu, pentru o populație de indivizi probabilitatea de a fi inclus în eșantion este cu atât mai mică cu cât venitul individului este mai mic, venitul mediu al eșantionului va fi în medie mai mare decât venitul mediu al populației.

Un exemplu faimos al unei inferențe distorsionate datorate unui eșantion distorsionat este legat de alegerile prezidențiale din 1936 din SUA, în care s-au opus Alfred M. Landon și Franklin Delano Roosevelt. Literary Digest a chestionat 2.000.000 de oameni că primul ar trebui să câștige alegerile (el a obținut 57% din eșantionul de vot). George Gallup a obținut rezultate opuse cu un eșantion mult mai mic (300.000 de unități). În cele din urmă, rezultatul prezis de Gallup a avut loc. Greșeala Literary Digest a apărut din faptul că eșantionul a fost selectat folosind directoarele abonaților de telefonie și ai proprietarilor de mașini, care nu erau foarte populare la acea vreme. Aceasta a însemnat că cetățenii predominant bogați au intrat în eșantion, adică procentul de cetățeni bogați din eșantion a fost mai mare decât cel al cetățenilor bogați din populație. Această circumstanță a produs rezultate distorsionate, deoarece procentul de alegători pentru Roosevelt a fost mai mare în rândul claselor inferioare, a căror contribuție a fost subestimată de Literary Digest , astfel încât probabilitatea includerii în eșantion depindea de fapt de caracteristica studiată.

Acest tip de eroare într-o analiză statistică este, de asemenea, numită eroare non-eșantionare, pentru a o deosebi de eroarea de eșantionare. Acesta din urmă este inerent tipului de problemă cu care se confruntă (deducerea caracteristicilor unui agregat prin observarea unei părți a acestuia) și este ținut sub control, deoarece răspunde regulilor de calcul al probabilităților (nu o putem cuantifica, dar putem evaluați-l distribuția probabilității) și poate fi redus prin mărirea dimensiunii eșantionului. Pe de altă parte, nu știm nimic despre eroarea de eșantionare nici în termeni probabilistici, iar creșterea informațiilor de eșantionare nu servește pentru a o reduce.

Estimator părtinitor

Un alt tip de prejudecată în statistici se referă la utilizarea statisticilor a căror valoare așteptată este diferită de cea a cantității estimate. Să presupunem că doriți să estimați parametrul printr-un estimator (adică o funcție a datelor observate). Distorsiunea de este definit ca:

Cu alte cuvinte, expresia de mai sus este valoarea așteptată a estimatorului minus adevărata valoare a . Acest lucru poate fi scris și ca:

adică valoarea așteptată a diferenței dintre estimator și valoarea reală a .

Corectitudinea asimptotică

O cerință mai puțin strictă de corectitudine este corectitudinea asimptotică: este necesar doar estimatorul pe baza eșantionului are o valoare așteptată egală cu , dar suntem mulțumiți că tendința valorii sale așteptate pe măsură ce mărimea eșantionului crește

cu alte cuvinte, un estimator este corect asimptotic dacă tendința tinde la zero pe măsură ce eșantionul crește

Exemplu: estimator al varianței

De exemplu, luați în considerare un eșantion X 1 , .., X n de variabile aleatorii independente și distribuite identic, cu valoarea așteptată μ și varianța σ². Este:

media eșantionului și:

varianța eșantionului . Se poate arăta că este un estimator părtinitor pentru σ²; acest lucru rezultă din faptul că:

În schimb, se poate arăta că estimatorul corect este varianța corectă a eșantionului , obținut prin substituirea lui n - 1 în numitor, unde definiția lui prezentat mai sus are n :

De fapt, pentru acesta din urmă rezultă:

Cu toate acestea, dacă eșantionul este extras dintr-o populație cu odistribuție normală , estimatorul este părtinitor este, pe baza criteriului - adoptat în mod obișnuit - al erorii pătrate medii (MSE, din engleza Mean Squared Error ) preferabil estimatorului corect . Chiar și atunci, însă, rădăcina pătrată a estimatorului ajustat pentru varianța populației nu este un estimator corect al deviației standard a populației; acest lucru rezultă în mod trivial din inegalitatea lui Jensen .

Exemplu

Un caz în care un estimator părtinitor poate fi preferabil unui estimator corect este următorul. Să presupunem că X are distribuția Poisson cu parametrul λ. Vrem să estimăm:

Singura funcție a eșantionului care oferă un estimator corect este:

Dacă valoarea observată a lui X este 100, estimarea va fi 1, deși valoarea reală a cantității care este estimată este cel mai probabil apropiată de 0, la extrema opusă. Dacă atunci valoarea observată a lui X este 101, atunci estimarea este și mai puțin plauzibilă: -1, deși cantitatea estimată este evident pozitivă. Estimatorul de probabilitate maximă (părtinitor):

este, în cele din urmă, preferabil estimatorului corect propus mai sus, în sensul că eroarea pătrată medie (MSE):

este minor; eroarea pătrată medie (MSE) a estimatorului corectat este de fapt egală cu:

Eroarea pătrată medie este o funcție a adevăratei valori a lui λ; părtinirea estimatorului de maximă probabilitate va fi:

Distorsiunea estimatorului de maximă probabilitate

Tendința unui estimator de maximă probabilitate poate fi, de asemenea, semnificativă. Luați în considerare următorul exemplu: n bilete, numerotate de la 1 la n , sunt plasate într-o urnă și una este selectată aleatoriu; denotați valoarea observată cu X. Dacă n este necunoscut, estimatorul maxim al probabilității lui n este X , deși valoarea așteptată a lui X este n / 2. Se poate fi sigur doar că n este cel puțin X și probabil că este mai mare decât X. Observați că, în acest caz, un estimator natural și corect pentru n este 2 X - 1.

Cu toate acestea, în ipoteze destul de generale, estimatorul de maximă probabilitate este corect asimptotic.

Dimensiunea eșantionului și nivelul de încredere

O formulă comună pentru determinarea dimensiunii eșantionului unei populații statistice de referință este următoarea [3] :

(1)

unde este:

Valorile lui Z α în funcție de nivelurile de încredere alese cel mai frecvent:
Valorile lui Z α 1.28 1,65 1,69 1,75 1.81 1,88 1,96
Nivele de încredere 80% 90% 91% nouăzeci și doi% 93% 94% 95%

Prin urmare, dacă statisticianul stabilește un nivel de încredere de 95%, valoarea Z α = 1,96 trebuie înlocuită în formula (1).

Având în vedere o populație de N de 500 de indivizi, se alege:

  1. un nivel de încredere de 95%, din care Z α = 1,96
  2. ,
  3. ,

substituind în formula (1), obținem dimensiunea eșantionului necesar n :

.

Rezultatul este rotunjit la numărul întreg de sus. Prin urmare: .

Notă

  1. ^ vezi Etimologia prejudecății
  2. ^ De asemenea, cunoscut sub numele de "eșantion de valoare ...".
  3. ^ Tamaño de una muestra para una investigación de mercado Trabajo de dos profesores de la Universidad Rafael Landívar.

Elemente conexe

Alte proiecte

linkuri externe

Controlul autorității Tezaur BNCF 49943