Deviația pătrată medie

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
O serie de date cu o medie de 50 (în albastru) și o deviație standard (σ) de 20.

Abaterea standard (sau abaterea standard, sau abaterea standard, [1] sau deviația pătrată medie) este un indice de dispersie statistic , și anume o estimare a variabilității unei populații de date sau a unei variabile aleatorii .

Este una dintre modalitățile de exprimare a dispersiei datelor în jurul unui indice de poziție , care poate fi, de exemplu, media aritmetică sau o estimare a acestuia. Prin urmare, are aceeași unitate de măsură ca valorile observate (spre deosebire de varianța care are pătratul unității de măsură a valorilor de referință ca unitatea sa de măsură). În statistici , precizia poate fi exprimată ca deviație standard.

Termenul „ deviație standard ” a fost introdus în statistici de Pearson [2] în 1894 împreună cu litera greacă ( sigma ) care o reprezintă. Termenul italian „deviație standard” este cea mai folosită traducere în limba comună; termenul Organismului Național de Unificare Italiană este totuși „deviație standard”, definit ca rădăcina pătrată pozitivă a varianței cel puțin din 1984 [3] .

Dacă nu se indică altfel, deviația standard este rădăcina pătrată a varianței , [4] care este reprezentată în mod constant cu pătratul sigmei: .

Statistici

În statistici, abaterea standard a unui personaj găsit la o populație de unitățile statistice sunt definite în mod explicit ca: [5]

unde este este media aritmetică a .

În mod formal, deviația pătrată medie a unei variabile poate fi calculată începând cu funcția generatoare de moment , în special este rădăcina pătrată a diferenței dintre al doilea moment și primul moment pătrat.

Pornind de la deviația pătrată medie, coeficientul de variație [6] sau deviația standard relativă este, de asemenea, definit ca raportul dintre abaterea standard și valoarea absolută a mediei aritmetice a variabilei în cauză cu condiția ca media să fie diferită de zero:

Acest indice relativ (care este adesea exprimat în termeni procentuali [7] ) permite efectuarea de comparații între dispersiile de date de diferite tipuri, indiferent de cantitățile lor absolute.

Abaterea standard corectată

În contextul statisticilor inferențiale (unde se cunoaște doar un eșantion din populație), în special în contextul teoriei estimării , numitorul este uneori înlocuit cu obținerea:

Practic, deoarece media întregii populații nu este cunoscută, ci doar o estimare a acesteia (media eșantionului), este necesar să se utilizeze pentru a obține un estimator corect a varianței necunoscute din pe întreaga populație pornind de la datele eșantionului. Rădăcina sa pătrată devine deviația standard „corectă”.

Această corecție a numitorului face ca noua definiție să fie puțin mai mare decât cea precedentă, corectând astfel tendința celei anterioare de a subestima incertitudinile, mai ales în cazul în care lucrați cu puține date ( mic) [8] .

Să ne uităm la cazul limită al , adică atunci când există un eșantion de un singur element: prima definiție dă rezultatul , ceea ce evident nu este foarte rezonabil în contextul statisticilor inferențiale, în timp ce cea „corectă” dă un rezultat nedefinit al tipului , reflectând astfel ignoranța totală inerentă incertitudinii cu privire la o singură măsură. În acest sens, se spune că statisticile nu spun nimic despre cazul individual.

Observăm că diferența dintre cele două definiții pentru eșantioane foarte mari este adesea nesemnificativă numeric.

Simplificarea formulei

Calculul poate fi simplificat după cum urmează:

adică aplicarea întregului la formula originală:

Şansă

Este o variabilă aleatorie , abaterea standard este definită ca rădăcina pătrată a varianței lui

În mod formal, deviația pătrată medie a unei variabile aleatorii poate fi calculată începând cu funcția generatoare de moment , în special este rădăcina pătrată a diferenței dintre al doilea moment și primul moment pătrat, adică

unde este este valoarea așteptată a .

Aplicații

În domeniul financiar , abaterea standard este utilizată pentru a indica variabilitatea unui activ financiar și plățile ( randamentele ) acestuia. Prin urmare, oferă, implicit, o măsură a volatilității activului, deci a riscului acestuia.

În fizică , este un indice excelent al erorii aleatorii la măsurarea unei mărimi fizice.

În sport este folosit pentru a evalua performanța unui jucător de bowling cu referire la un anumit număr de jocuri. Valoarea găsită nu afectează scorul, dar rezumă abilitățile și îmbunătățirile jucătorului.

În inginerie, este unul dintre parametrii care trebuie luați în considerare pentru a evalua capacitatea unui proces de producție.

În aplicațiile informatice, uneori este convenabil să se utilizeze formula

ceea ce permite, cu doar trei variabile , pentru a calcula abaterea standard, precum și media , unui flux de numere de lungime fără a fi nevoie să recurgă la o memorare a aceluiași.

Notă

  1. ^ Standardul UNI italian UNI ISO 3534-1 : 2000 Statistici - Vocabular și simboluri, probabilitate și termeni statistici generali . Milano: UNI, 2000, definiție 1.23.
  2. ^ Karl Pearson , Despre disecția curbelor de frecvență asimetrice , 1894
  3. ^ UNI, standardul italian UNI 4723: 1984, Metode statistice pentru controlul calității. Termeni, simboluri și definiții . Milano: UNI, 1984. înlocuit de standardul menționat mai sus UNI ISO 3534-1 în februarie 2000.
  4. ^ Glosar Istat , pe www3.istat.it (arhivat de la adresa URL originală la 31 decembrie 2011) .
  5. ^ Sheldon , p. 96.
  6. ^ UNI , standardul italian UNI ISO 3534-1: 2000, Statistică - Vocabular și simboluri, Probabilitate și termeni statistici generali . Milano: UNI, 2000, definiție 1.24 și 2.35.
  7. ^ Domenico Piccolo, Statistics , Il Mulino, Bologna, 1998, p. 123.
  8. ^ În aplicații practice, un eșantion format din mai puțin de 30 de elemente (N <30) este considerat „mic”.

Bibliografie

Elemente conexe

Alte proiecte

linkuri externe

Controlul autorității LCCN (EN) sh85127303 · GND (DE) 4767332-1