Corecția Bessel

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În statistici , corecția Bessel este utilizarea lui n - 1 în loc de n în formula pentru varianța eșantionului și abaterea standard a eșantionului , [1] unde n este numărul de observații dintr-un eșantion . Această metodă corectează tendința în estimarea varianței populației. De asemenea, corectează parțial tendința în estimarea deviației standard a populației. Cu toate acestea, corecția crește adesea eroarea pătrată medie a rădăcinii în aceste estimări. Această tehnică poartă numele lui Friedrich Bessel .

În estimarea varianței populației dintr-un eșantion, atunci când media populației este necunoscută, varianța eșantionului necorectat este media pătrată a abaterilor valorilor eșantionului față de media eșantionului (adică folosind un factor de multiplicare 1 / n ). În acest caz, varianța eșantionului este un estimator părtinitor al varianței populației.

Înmulțind varianța eșantionului necorectat cu factorul

se obține un estimator imparțial al varianței populației. Unele surse [2] [3] numesc acest factor de corecție Bessel .

Ne putem gândi la corecția Bessel ca la gradele de libertate ale vectorului rezidual (al reziduurilor, nu al erorilor, deoarece media populației este necunoscută):

cand este media eșantionului. Deși există n observații independente în eșantion, există doar n - 1 reziduuri independente, întrucât suma lor este 0. Pentru o explicație mai intuitivă a necesității corecției Bessel, vezi părtinire în statistici .

În general, corecția Bessel este o abordare pentru reducerea prejudecății datorită dimensiunii probei finite. O astfel de corecție a distorsiunii unui eșantion finit este necesară și pentru alte estimări, cum ar fi simetria și kurtosis , dar în aceste inexactități sunt adesea semnificativ mai mari. Pentru a elimina complet această prejudecată, ar fi necesar să se efectueze o estimare multiparametrică mai complexă. De exemplu, o corecție corectă pentru deviația standard depinde de kurtoză (al patrulea moment central normalizat), dar și aceasta are o tendință de eșantionare finită și depinde de deviația standard, adică ambele estimări trebuie combinate.

Avertizări

Există trei avertismente de luat în considerare atunci când utilizați corecția Bessel:

  1. Nu oferă un estimator imparțial al deviației standard.
  2. Estimatorul corectat are adesea o eroare pătrată medie (MSE) mai mare decât estimatorul incorect. [4] În plus, nu există o distribuție a populației pentru care se găsește MSE minim, deoarece este întotdeauna posibil să se aleagă un factor de scară diferit pentru a minimiza MSE.
  3. Este necesar numai atunci când media populației este necunoscută (și estimată ca medie eșantion). În practică, asta se întâmplă în general.

În primul rând, în timp ce varianța eșantionului (folosind corecția lui Bessel) este un estimator imparțial al varianței populației, rădăcina pătrată a acesteia, abaterea standard a eșantionului, este o estimare părtinitoare a abaterii standard a populației; deoarece rădăcina pătrată este o funcție concavă , tendința este descendentă, din cauza inegalității Jensen . Nu există o formulă generală pentru un estimator imparțial al deviației standard a populației, deși există factori de corecție pentru anumite distribuții, cum ar fi normalul. O aproximare a factorului exact de corecție pentru distribuția normală este dată folosind n - 1.5 în formulă: polarizarea se descompune cvadrat (mai degrabă decât liniar, ca în forma incorectă și în forma corectă Bessel).

În al doilea rând, estimatorul imparțial nu minimizează eroarea pătrată medie (MSE) și are, în general, un MSE mai rău decât estimatorul necorectat (aceasta variază în funcție de excesul de kurtoză ). MSE poate fi minimizat utilizând un factor diferit. Valoarea optimă depinde de excesul de kurtoză, așa cum sa discutat în eroarea pătrată medie pentru varianță ; pentru distribuția normală este optimizat prin împărțirea la n + 1 (în loc de n - 1 sau n ).

În al treilea rând, corecția Bessel este necesară numai atunci când media populației este cunoscută și se evaluează atât media populației, cât și varianța populației dintr-un eșantion dat, folosind media eșantionului pentru a estima media populației. În acest caz, există n grade de libertate într-un eșantion de n puncte, iar estimarea simultană a mediei și a varianței înseamnă că un grad de libertate merge la media eșantionului și restul de n - 1 grade de libertate ( resturile ) merg la varianța eșantionului. Cu toate acestea, dacă media populației este cunoscută, abaterile observațiilor de la media populației au n grade de libertate (deoarece media nu este estimată, abaterile nu sunt reziduale, ci erori ), iar corecția Bessel nu este aplicabilă.

Surse de părtinire

Mai simplu, pentru a înțelege părtinirea care trebuie corectată, luați în considerare un caz extrem. Să presupunem că populația este (0,0,0,1,2,9) și că are o populație medie de 2 și o varianță a populației de 10 1/3. Se extrage un eșantion de n = 1 și se dovedește a fi Cea mai bună estimare a mediei populației este Dar dacă folosim formula pentru a estima varianța? Estimarea varianței ar fi zero --- și estimarea ar fi zero pentru fiecare populație și fiecare eșantion cu n = 1. Problema este că, în estimarea mediei eșantionului, procesul ne-a făcut deja estimarea mediei aproape de eșantion valoare - identică, pentru n = 1. În cazul lui n = 1, varianța nu poate fi estimată, deoarece nu există variabilitate în eșantion.

În schimb, ia în considerare n = 2. Să presupunem că eșantionul este (0, 2). Atunci Și , dar cu corectarea lui Bessel, , care este o estimare imparțială (dacă se iau toate eșantioanele posibile de n = 2 și se folosește această metodă, estimarea medie va fi de 10 1/3.)

Pentru a înțelege mai detaliat, luați în considerare următorul exemplu. Să presupunem că media întregii populații este 2050, dar statisticianul nu o știe și, prin urmare, trebuie să o estimeze pe baza acestui mic eșantion ales la întâmplare din populație:

Media eșantionului poate fi calculată:

Aceasta poate servi ca o estimare observabilă a mediei populației neobservabile, care este 2050. Acum abordăm problema estimării varianței populației. Aceasta este media pătratelor abaterilor de la 2050. Dacă am ști că media populației este 2050, am putea face următoarele:

Dar estimarea noastră a mediei populației este media eșantionului, 2052. Media reală, 2050, este necunoscută. Deci, trebuie să utilizați media eșantionului, 2052:

Varianța este acum mult mai mică. După cum se arată mai jos, varianța va fi aproape întotdeauna mai mică atunci când se calculează folosind suma distanțelor pătrate până la media eșantionului, comparativ cu suma distanțelor pătrate față de media populației. Singura excepție este atunci când media eșantionului este egală cu media populației, caz în care și varianța este egală.

Pentru a înțelege de ce se întâmplă acest lucru, să folosim o identitate algebrică simplă :

Cu reprezentând abaterea unui singur eșantion de la media eșantionului e care reprezintă abaterea eșantionului mediu de la media populației. Rețineți că am descompus pur și simplu abaterea efectivă a unei singure probe din media populației (necunoscută) în două componente: abaterea eșantionului unic de media probei, pe care o putem calcula și abaterea suplimentară a probei medii de la populația înseamnă ce nu putem. Acum, să aplicăm această identitate în pătratele abaterilor de la populație înseamnă:

Acum să aplicăm acest lucru la toate cele cinci observații și să privim câteva patterni:

Suma intrărilor din coloana din mijloc trebuie să fie zero, deoarece termenul a va fi adăugat pe toate cele 5 rânduri, care la rândul lor trebuie să fie egal cu zero. Acest lucru se datorează faptului că a conține cele 5 eșantioane individuale (partea stângă între paranteze) care, adăugate, au în mod natural aceeași sumă de 5 ori media eșantionului celor 5 numere (2052). Aceasta înseamnă că o scădere a acestor două sume trebuie să fie egală cu zero. Factorul 2 și termenul b din coloana din mijloc sunt aceleași pentru toate rândurile, ceea ce înseamnă că diferența relativă dintre toate rândurile din coloana din mijloc rămâne aceeași și, prin urmare, poate fi ignorată. Următoarele afirmații explică semnificația coloanelor rămase:

  • Suma articolelor din prima coloană ( a 2 ) este suma pătratelor distanței de la eșantion la media eșantionului;
  • Suma articolelor din ultima coloană ( b 2 ) este suma distanțelor pătrate dintre media eșantionului măsurat și media populației ajustată
  • Fiecare singur rând este acum format din perechi de un 2 (oblică, deoarece se folosește media eșantionului) și b 2 (corecție prejudecată, deoarece ia în considerare diferența dintre media „reală“ a populației și media probei inexacte). Prin urmare, suma tuturor intrărilor din prima și ultima coloană reprezintă acum varianța corectată, ceea ce înseamnă că acum este utilizată suma distanței pătrate între eșantioane și media populației
  • Suma coloanelor a 2 și b 2 trebuie să fie mai mare decât suma elementelor coloanei a 2 , deoarece toate elementele din b 2 sunt pozitive (cu excepția cazului în care media populației este egală cu media eșantionului, caz în care vor fi toate numerele din ultima coloană va fi 0).

Prin urmare:

  • Suma pătratelor distanței de la eșantioane la media populației va fi întotdeauna mai mare decât suma pătratelor distanței de la media eșantionului , cu excepția cazului în care media eșantionului coincide cu media populației, caz în care cele două sunt egale.

Acesta este motivul pentru care suma pătratelor abaterilor de la media eșantionului este prea mică pentru a oferi o estimare imparțială a varianței populației atunci când se găsește media acelor pătrate. Cu cât dimensiunea eșantionului este mai mică, cu atât este mai mare diferența dintre varianța eșantionului și varianța populației.

Terminologie

Această corecție este atât de comună încât termenii „varianță eșantion” și „deviație standard eșantion” sunt adesea folosiți pentru a desemna estimatorii corecți (variația eșantionului nepărtinitor, abaterea standard eșantion minim), folosind n - 1. Cu toate acestea, este necesară prudență: unele calculatoarele și pachetele software pot avea ambele sau doar cele mai neobișnuite formulări. Acest articol folosește următoarele simboluri și definiții:

μ este media populației
este media eșantionului
σ 2 este varianța populației
s n 2 este varianța eșantionului părtinitor (adică fără corecția lui Bessel)
s 2 este varianța eșantionului nedistorsionat (adică cu corecția lui Bessel)

Abaterile standard vor fi apoi rădăcinile pătrate ale varianțelor respective. Deoarece rădăcina pătrată introduce o părtinire, terminologia „incorectă” și „corectă” sunt preferate pentru estimatorii abaterii standard:

s n este abaterea standard a eșantionului incorect (adică fără corecția lui Bessel)
s este deviația standard a eșantionului corectată (adică cu corecția lui Bessel), care este mai puțin părtinitoare, dar totuși părtinitoare

Formulă

Media eșantionului este dată de

Varianța eșantionului distorsionat este apoi scrisă:

iar varianța eșantionului imparțial este:

Dovada corectitudinii - alternativa 1

Dovada corectitudinii - alternativa 2

Dovada corectitudinii - alternativa 3

Notă

  1. ^ (EN) Nicole M Radziwill, Statistics (the easy way) with R, 2017, ISBN 978-0-9969160-5-9 ,OCLC 1030532622 .
  2. ^ WJ Reichmann, WJ (1961) Utilizarea și abuzul statisticilor , Methuen. Reeditat 1964–1970 de Pelican. Anexa 8.
  3. ^ Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics , OUP. ISBN 978-0-19-954145-4 (intrare pentru „Varianță (date)”)
  4. ^ Jeffrey S. Rosenthal, The Kids are Alright: Divide by n when estimating variance , în Buletinul Institutului de Statistică Matematică , decembrie 2015, 2015, p. 9.

Elemente conexe

linkuri externe

Statistici Portal de statistici : accesați intrările Wikipedia care se ocupă de statistici