Distribuție (statistici)

În statistici , în special în statisticile descriptive , o distribuție este o reprezentare a modului în care diferitele modalități ale unui personaj sunt distribuite în unitățile statistice care alcătuiesc colectivul studiat. ^[1]

Distribuțiile din statistici sunt, de asemenea, împărțite în simple dacă se găsește un singur caracter, multiple dacă se găsesc mai multe caractere în același colectiv.

Distribuție unitară

Într-o distribuție simplă a unităților, sunt prezentate modalitățile observate pentru fiecare unitate statistică. De exemplu, dacă caracterul „calificare” este detectat în rândul celor n angajați ai unei companii, distribuția unitară este un set de n perechi în care primul element indică unitatea (numele sau alte date de identificare ale fiecărui angajat), al doilea indică calificarea sa educațională (diplomă de gimnaziu, diplomă de liceu, diplomă de trei ani etc.).

In mod similar, o distribuție multiplă este un set de tuple n- în care primul element indică unitatea , iar cele ulterioare indică modurile de n - 1 caractere observate la acea unitate.

Setul de perechi sau n- tuple este reprezentat de un tabel. În cazul unei distribuții simple, avem un tabel cu două coloane, prima conținând unitățile unice și a doua modurile observate.

Seria de intensitate

În general, distribuțiile unitare reprezintă primul rezultat al unui sondaj, care este apoi organizat sub forma unei distribuții de frecvențe sau cantități. Excepție fac așa-numitele serii de intensitate , care prezintă intensitățile diferite ale unui fenomen detectat conform unui criteriu calitativ sau în orice caz nu cantitativ în sens strict (nu o măsură sau un număr). Exemple sunt:

seria teritorială , în care intensitatea unui fenomen (de exemplu, prețul unui bun) este detectată pentru diferite teritorii, cum ar fi regiunile sau provinciile italiene;
serie istorică , în care intensitatea unui fenomen (de exemplu, PIB ) este măsurată în anii sau trimestrele următoare.

Distribuția frecvenței

Într-o distribuție de frecvență , este prezentat numărul de unități pe care este detectat fiecare mod de caractere. Într-un sondaj al calificării, de exemplu, distribuția frecvenței este un set de k perechi, unde k este numărul de moduri de caractere; în fiecare pereche primul element indică modalitatea și al doilea indică numărul n _i de unități pe care a fost observată acea modalitate ( frecvența absolută cu care este observată).

Dacă caracterul este cantitativ continuu sau, în orice caz, are numeroase modalități, acestea sunt grupate în clase. De exemplu, dacă detectăm înălțimea, diferitele înălțimi posibile sunt grupate în intervale („mai puțin de 150”, „de la 150 la 160” etc.), dacă detectăm numărul de angajați ai unui grup de companii folosim clase de tipul „până la 5 angajați”, „de la 6 la 20”, „de la 21 la 50” etc.

În tabelul reprezentând o distribuție simplă a frecvenței, prima coloană conține modurile sau clasele lor, a doua conține numerele unităților care au diferite moduri. Suma celei de-a doua coloane este egală cu numărul total n de unități. Distribuțiile relative (sau procentuale ) de frecvență pot fi derivate dintr-o distribuție de frecvență. În primul caz, frecvențele n _i , numite absolute , sunt înlocuite cu raporturile f _i = n _i / n ; în al doilea, aceste rapoarte sunt înmulțite cu 100.

În cele din urmă, dacă caracterul este calitativ, ordonat sau cantitativ, diferitele sale modalități sunt prezentate în ordine crescătoare și se pot calcula frecvențele cumulative absolute sau relative; frecvențele absolute cumulate se calculează după cum urmează:

N_{i}=\sum _{j=1}^{i}n_{j}=n_{1}+n_{2}+\cdots +n_{i}

{\ displaystyle N_ {i} = \ sum _ {j = 1} ^ {i} n_ {j} = n_ {1} + n_ {2} + \ cdots + n_ {i}}

N_ {i} = \ sum _ {{j = 1}} ^ {i} n_ {j} = n_ {1} + n_ {2} + \ cdots + n_ {i}

Celelalte sunt calculate în același mod.

Schema generală a tabelelor corespunzătoare este următoarea:

Mod	Frecvențe absolut	Frecvențe relativ	Frecvențe procente	Frecvențe absolut cumulat	Frecvențe relativ cumulat	Frecvențe procente cumulat
$x_{i}$ ${\ displaystyle x_ {i}}$ $x_i$	$n_{i}$ ${\ displaystyle n_ {i}}$ $n_i$	$f_{i}={\frac {n_{i}}{n}}$ ${\ displaystyle f_ {i} = {\ frac {n_ {i}} {n}}}$ $f_ {i} = {\ frac {n_ {i}} {n}}$	$p_{i}=f_{i}\cdot 100$ ${\ displaystyle p_ {i} = f_ {i} \ cdot 100}$ ${\ displaystyle p_ {i} = f_ {i} \ cdot 100}$	$N_{i}=\sum _{j=1}^{i}n_{j}$ ${\ displaystyle N_ {i} = \ sum _ {j = 1} ^ {i} n_ {j}}$ $N_ {i} = \ sum _ {{j = 1}} ^ {i} n_ {j}$	$F_{i}=\sum _{j=1}^{i}f_{j}$ ${\ displaystyle F_ {i} = \ sum _ {j = 1} ^ {i} f_ {j}}$ $F_ {i} = \ sum _ {{j = 1}} ^ {i} f_ {j}$	$P_{i}=\sum _{j=1}^{i}p_{j}$ ${\ displaystyle P_ {i} = \ sum _ {j = 1} ^ {i} p_ {j}}$ $P_ {i} = \ sum _ {{j = 1}} ^ {i} p_ {j}$
$x_{1}$ ${\ displaystyle x_ {1}}$ $x_1$	$n_{1}$ ${\ displaystyle n_ {1}}$ $n_ {1}$	$f_{1}$ ${\ displaystyle f_ {1}}$ $f_ {1}$	$p_{1}$ ${\ displaystyle p_ {1}}$ $p_ {1}$	$n_{1}$ ${\ displaystyle n_ {1}}$ $n_ {1}$	$f_{1}$ ${\ displaystyle f_ {1}}$ $f_ {1}$	$p_{1}$ ${\ displaystyle p_ {1}}$ $p_ {1}$
$x_{2}$ ${\ displaystyle x_ {2}}$ $x_2$	$n_{2}$ ${\ displaystyle n_ {2}}$ $n_ {2}$	$f_{2}$ ${\ displaystyle f_ {2}}$ $f_ {2}$	$p_{2}$ ${\ displaystyle p_ {2}}$ $p_ {2}$	$n_{1}+n_{2}$ ${\ displaystyle n_ {1} + n_ {2}}$ $n_ {1} + n_ {2}$	$f_{1}+f_{2}$ ${\ displaystyle f_ {1} + f_ {2}}$ $f_ {1} + f_ {2}$	$p_{1}+p_{2}$ ${\ displaystyle p_ {1} + p_ {2}}$ $p_ {1} + p_ {2}$
$x_{3}$ ${\ displaystyle x_ {3}}$ $x_3$	$n_{3}$ ${\ displaystyle n_ {3}}$ $n_ {3}$	$f_{3}$ ${\ displaystyle f_ {3}}$ $f_ {3}$	$p_{3}$ ${\ displaystyle p_ {3}}$ $p_ {3}$	$n_{1}+n_{2}+n_{3}$ ${\ displaystyle n_ {1} + n_ {2} + n_ {3}}$ $n_ {1} + n_ {2} + n_ {3}$	$f_{1}+f_{2}+f_{3}$ ${\ displaystyle f_ {1} + f_ {2} + f_ {3}}$ $f_ {1} + f_ {2} + f_ {3}$	$p_{1}+p_{2}+p_{3}$ ${\ displaystyle p_ {1} + p_ {2} + p_ {3}}$ $p_ {1} + p_ {2} + p_ {3}$

$\dots$ ${\ displaystyle \ dots}$ $\ dots$	$\dots$ ${\ displaystyle \ dots}$ $\ dots$	$\dots$ ${\ displaystyle \ dots}$ $\ dots$	$\dots$ ${\ displaystyle \ dots}$ $\ dots$	$\dots$ ${\ displaystyle \ dots}$ $\ dots$	$\dots$ ${\ displaystyle \ dots}$ $\ dots$	$\dots$ ${\ displaystyle \ dots}$ $\ dots$

$x_{k}$ ${\ displaystyle x_ {k}}$ $x_k$	$n_{k}$ ${\ displaystyle n_ {k}}$ $n_ {k}$	$f_{k}$ ${\ displaystyle f_ {k}}$ $f_ {k}$	$p_{k}$ ${\ displaystyle p_ {k}}$ $p_ {k}$	$n$ ${\ displaystyle n}$ $n$	$1$ ${\ displaystyle 1}$ $1$	$100$ ${\ displaystyle 100}$ $100$
	$n$ ${\ displaystyle n}$ $n$	$1$ ${\ displaystyle 1}$ $1$	$100$ ${\ displaystyle 100}$ $100$

unde este:

x ₁ , x ₂ , ..., x _k sunt modurile k ale personajului (sau clasele k în care sunt grupate);
n ₁ , n ₂ , ..., n _k sunt frecvențele absolute cu care sunt respectate diferitele modalități, al căror total n este numărul total de unități statistice;
f ₁ , f ₂ , ..., f _k sunt frecvențele relative, calculate ca raporturi între frecvențele absolute și numărul total de unități statistice; totalul lor este 1;
N ₁ , N ₂ , ..., N _k sunt frecvențele absolute cumulate, obținute prin adăugarea frecvențelor absolute ale modurilor anterioare la frecvența absolută a modului i -th;
F _1, F _2, ..., F _k sunt frecvențele relative cumulate, obținute prin adăugarea frecvențelor relative ale modalităților anterioare la frecvența relativă a modului j- - lea;

Frecvențele relative cumulative sunt utilizate pentru a calcula funcția de distribuție empirică .

Serii și serieri

Distribuțiile de frecvență sunt uneori denumite:

serie , dacă numărăm unitățile care au aceleași modalități de caracter calitativ (geografic, alfabetic, cromatic etc.);
serii , dacă numărăm unitățile care au aceleași valori cu caracter cantitativ.

Distribuția cantităților

Într-o distribuție a cantităților, este prezentat modul în care un caracter cantitativ este distribuit între diferitele sale modalități. De exemplu, presupunând că numărul de angajați ai unui grup de companii este înregistrat, există o distribuție a frecvențelor dacă pentru fiecare număr de angajați sau pentru fiecare dintre clasele sale este indicat numărul de companii care au acel număr de angajați; în schimb, există o distribuție a cantităților dacă se arată numărul de angajați din clasa respectivă. Reprezentând cele două distribuții prin intermediul tabelelor, în primul caz suma celei de-a doua coloane va fi numărul total de unități (companiile), în al doilea va fi numărul total al angajaților acestora (suma totală a cantității caracter detectat).

În tabelul următor se presupune că a detectat numărul de angajați (caracterul cantitativ) la 3.443.915 companii (unitățile statistice):

	Numar de angajati	Numărul de companii
Până la 5	5.275.084	3.013.879
6 la 20	3.123.203	324.478
21 la 50	2.028.302	67.610
51 la 100	1.567.439	22.952
101 la 500	2.506.534	13.305
de la 501 la 1000	740.280	1,088
peste 1000	1.384.302	603
Total	16.625.144	3.443.915

Prima coloană conține modurile de caractere grupate în clase.

A doua coloană conține distribuția cantității; în al doilea rând, de exemplu, citim că numărul angajaților angajați în companiile cu 6-20 de angajați este de 3.123.203. Totalul coloanei exprimă numărul total de angajați ai companiilor chestionate, deci cu suma totală a personajului.

A treia coloană conține distribuția frecvenței; în al patrulea rând, de exemplu, citim că numărul companiilor în care este detectat modul „51 până la 100 de angajați” este 22.952. Totalul coloanei coincide cu numărul total de ferme pe care a fost realizat sondajul (numărul unităților statistice).

Reprezentare grafică

Pentru seria teritorială, se folosesc adesea cartograme , în care este reprezentat întregul teritoriu considerat (de exemplu o hartă a Italiei ) și culori diferite sunt utilizate pentru a arăta intensitatea diferită a fenomenului detectat în diferite provincii sau regiuni.

Seriile temporale sunt de obicei reprezentate cu linii întrerupte.

Distribuțiile de frecvență sunt reprezentate grafic cu bare sau plăcintă diagrame dacă caracterul este calitativ sau discret cantitativ , cu histograme dacă caracterul este cantitativ continuu .