Exemplu de probe din două populații cu aceeași variație medie, dar diferite. Populația roșie are medie de 100 și 100 varianță (SD = 10), în timp ce populația albastră are medie de 100 și 2500 varianță (SD = 50).
În statistici și teoria probabilității,varianța unei variabile statistice sau o variabilă aleatoare{\ displaystyle X} este o funcție , indicată cu {\ displaystyle \ sigma _ {X} ^ {2}} sau cu {\ Displaystyle \ mathrm {} Var (X)} (Sau pur și simplu cu {\ displaystyle \ sigma ^ {2}} dacă variabila este implicit), care oferă o măsură a variabilității valorilor asumate de variabila in sine; în mod specific, măsura a cât de mult se deosebesc quadratically din media aritmetică sau valoarea așteptată, respectiv{\ displaystyle \ mathbb {E} [X]} .
Termenul „variație“ a fost introdus în 1918 de către Ronald Fisher și -a lungul timpului a înlocuit termenul „abaterea standard pătratică“ utilizat de Karl Pearson .
Varianța variabilei aleatoare{\ displaystyle X} este definită ca valoarea așteptată a pătratului variabilei aleatoare centrate {\ Displaystyle X \ mathbb {E} [X]}
{\ Displaystyle \ sigma _ {X} ^ {2} = \ mathbb {E} {\ Big [} {\ mare (} X \ mathbb {E} [X] {\ mare)} ^ {2} {\ Mare]}.}
Un exemplu de „măsură“ a abaterii unei variabile aleatoare de medie este dată de inegalitatea Čebyšëv care controlează această abatere în ceea ce privește abaterea standard:
{\ Displaystyle P {\ Big (} {\ mare |} X \ mathbb {E} [X] {\ mare |} \ geqslant \ lambda \ sigma _ {X} {\ Big)} \ leqslant {\ frac { 1} {\ lambda ^ {2}}}}
unde este {\ Displaystyle \ sigma _ {X} = {\ sqrt {\ sigma _ {X} ^ {2}}}}
Proprietate
Semnul de varianță
Varianța unei variabile aleatoare nu este negativ, și este zero numai atunci când variabila aproape sigur presupune o singură valoare {\ displaystyle x_ {0}} , adică dacă {\ Displaystyle P (X = X_ {0}) = 1} .
Maximă și minimă a varianței fixă valorile extreme ale distribuției
Având în vedere un set de {\ displaystyle n} unități statistice, în cazul în care {\ Displaystyle \ mathrm {min}} Și {\ Displaystyle \ mathrm {max}} sunt valorile minime și maxime între unitățile, valoarea maximă pe care variația poate lua este egală cu
și din moment ce variabilele sunt independente se dovedește {\ Displaystyle \ mathbb {E} [XY] = \ mathbb {E} [X] \ mathbb {E} [Y] = 0.}
În cazul general, este suficient să se traducă variabilele, astfel încât acestea să aibă o valoare nulă de așteptat (cum ar fi {\ Displaystyle X „= X \ mathbb {E} [X]} ); varianța lor nu se schimba, deoarece variația este invariantă de traducere.
Varianța a diferenței dintre cele două variabile independente
Folosind cele două declarații anterioare, putem spune că variația diferenței dintre două variabile independente este egală cu suma varianțelor lor
Varianța mediei aritmetice a variabilelor independente
În special, media aritmetică{\ Displaystyle \ textstyle {\ bar {X}} = {\ frac {X_ {1} + \ ldots + X_ {n}} {n}}} din {\ displaystyle n} variabile aleatoare independente având aceeași distribuție, are varianța aritmetică
Varianța unei discrete variabile aleatoare {\ displaystyle X} la valorile dintr-un set {\ displaystyle A} este calculat prin intermediul acesteia funcție de probabilitate :
{\ Displaystyle \ mathbb {E} [X] = \ sum _ {x \ în A} xP (X = x)}
{\ Displaystyle \ sigma _ {X} ^ {2} = \ sum _ {x \ în A} (x- \ mathbb {E} [X]) ^ {2} P (X = x).}
Varianța unei variabile aleatoare continuă{\ displaystyle X} la valorile dintr-un set {\ displaystyle A} se calculează prin intermediul său de densitate de probabilitate :
O Bernoulli variabilă aleatoare {\ displaystyle X} , Adică, care are probabilitatea {\ displaystyle p} pentru a da „1“ și probabilitate {\ displaystyle q = 1-p} la alimentarea cu „0“, are o valoare de așteptat
{\ Displaystyle \ mathbb {E} [X] = 0 \ cdot P (X = 0) +1 \ cdot P (X = 1) = P (X = 1) = p,}
unde este {\ displaystyle K} reprezintă numărul de moduri în care caracterul x apare, în timp ce {\ Displaystyle X_ {j}} Și {\ Displaystyle n_ {j}} sunt respectiv j- modalitatea de x și relativă frecvența absolută .
Pornind de la formula anterioară, amintindu-ne că{\ Displaystyle n_ {j} / n = f_ {j}} , Vom obține, de asemenea:
Defectul a varianței este acela de a nu avea aceeași unitate de măsură ca și valorile analizate (dacă, de exemplu, acestea sunt în cm, varianța va fi în cm 2), prin urmare , în statisticilerădăcina pătrată a varianței este de asemenea folosit foarte des, și anume abaterea standard (sau abaterea standard sau abaterea standard){\ Displaystyle \ sigma _ {X} = {\ sqrt {\ sigma _ {X} ^ {2}}}} . Cu referire la această notație, variația este, prin urmare, de asemenea, indicat ca {\ displaystyle \ sigma ^ {2}} .
Estimatori
În statistici , două estimatori sunt de obicei utilizate pentru varianța pe un eșantion de cardinalitate {\ displaystyle n} :
unde este {\ Displaystyle \ textstyle {\ bar {x}} = {\ frac {X_ {1} + \ ldots + X_ {n}} {n}}} este proba medie . Primul se numește variația probei, în timp ce al doilea se numește variația probei corectă datorită proprietății sale de corectitudine . Într-adevăr, estimatorul {\ displaystyle S_ {n-1} ^ {2}} este distortion- liber, adică ei valoare de așteptat este tocmai varianța:
Dimpotrivă, estimatorul {\ displaystyle S_ {n} ^ {2}} are o valoare de așteptat, altele decât varianța, {\ Displaystyle \ mathbb {E} [S_ {n} ^ {2}] = \ textstyle {\ frac {n-1} {n}} \ sigma ^ {2} (X)} .
O explicație a termenului {\ Displaystyle n-1} este dată de necesitatea de a estima, de asemenea, media, care, pentru teorema limită centrală, are varianța 1 / n. În cazul în care media este cunoscut, estimatorul {\ displaystyle S_ {n} ^ {2}} devine corectă. Aceasta se numește „corecție Bessel“.
În cazul în care {\ displaystyle X_ {i}} acestea suntvariabile aleatoare normale{\ displaystyle N (\ mu, \ sigma)} , Estimatorul {\ displaystyle S_ {n-1} ^ {2}} este o variabilă aleatoare cu distribuție{\ displaystyle \ chi ^ {2}} .
Exemplu
Eșantionul de {\ displaystyle n = 5} elemente {\ Displaystyle \ {- 4, -1,1,2,7 \}} are o probă medie egală cu: