În statistică și teoria probabilității , funcția de distribuție (sau funcția cumulativă ) este o funcție variabilă reală care conține informații despre un fenomen (un set de date, un eveniment aleatoriu) referitor la prezența sau distribuția acestuia înainte sau după un anumit punct.
În calculul probabilităților, funcția dedistribuție sau funcția de probabilitate cumulativă a unei variabile aleatorii{\ displaystyle X} valoarea reală este funcția care se leagă de fiecare valoare {\ displaystyle x} probabilitatea următorului eveniment : „variabila aleatorie {\ displaystyle X} presupune valori mai mici sau egale cu {\ displaystyle x} ".
Cu alte cuvinte, este funcția {\ displaystyle F \ colon \ mathbb {R} \ to [0,1]} cu domeniul linia reală și imaginea din interval{\ displaystyle [0,1]} definit de
{\ displaystyle F (x) = P (X \ leq x).}
O funcție F este o funcție de distribuție validă dacă nu este descrescătoare , continuă spre dreapta și
{\ displaystyle F (x) \ geq 0, \ quad \ forall x}
{\ displaystyle \ lim _ {x \ to + \ infty} F (x) = 1}
{\ displaystyle \ lim _ {x \ to - \ infty} F (x) = 0}
O funcție de distribuție nu este neapărat lăsată continuă (și, prin urmare, continuă la nivel global): dacă {\ displaystyle X} este o variabilă discretă aleatorie și {\ displaystyle z} un punct al sprijinului său, atunci {\ displaystyle F} este o funcție pas și, prin urmare
{\ displaystyle \ lim _ {x \ to z ^ {-}} F (x) = \ lim _ {x \ to z ^ {-}} \ sum _ {i = 1} ^ {n} p (x_ { i}) = \ sum _ {i = 1} ^ {n} p (x_ {i})}
(plasarea fără restricții de generalitate {\ displaystyle x_ {1} <x_ {2} <\ ldots <x_ {n} <x <z} ) întrucât este o constantă independentă de {\ displaystyle x} , in timp ce
{\ displaystyle F (z) = \ sum _ {i = 1} ^ {n} p (x_ {i}) + p (z)}
fiind deci {\ displaystyle p (z) \ neq 0} avem asta {\ displaystyle F} nu este continuu.
Mai general, o funcție de distribuție identifică în mod unic o întreagă distribuție de probabilitate , adică o funcție care pentru fiecare subsetmăsurabil{\ displaystyle A} asociază probabilitatea ca {\ displaystyle X} intră {\ displaystyle A}[1] .
Proprietate
Se poate arăta din definiție că se mențin următoarele egalități, presupunând simplitatea notării {\ displaystyle F (x ^ {-}): = \ lim _ {t \ to x ^ {-}} F (t)} :
{\ displaystyle F (x) = \ int _ {- \ infty} ^ {x} f (u) du}
Unde {\ displaystyle f} se numește funcția de densitate a {\ displaystyle X} . Relația inversă poate fi, de asemenea, considerată:
{\ displaystyle F '(x) = f (x)}
De sine {\ displaystyle X} este o variabilă discretă aleatorie (adică admite o colecție numărabilă de valori posibile {\ displaystyle x_ {1}, \ ldots, x_ {n}, \ ldots} )
{\ displaystyle F (x) = \ sum _ {x_ {i} \ leq x} p (x_ {i})}
unde este {\ displaystyle p (x) = P (X = x)} se numește funcția de probabilitate a {\ displaystyle X} .
Exemple
Graficul funcției de distribuție în raport cu distribuția uniformă
De sine {\ displaystyle X} este variabila aleatorie rezultată din aruncarea unei matrițe cu șase fețe
{\ displaystyle F (x) = {\ begin {cases} 0 & x <1 \\\ lfloor x \ rfloor / 6 & 1 \ leq x <6 \\ 1 & x \ geq 6 \ end {cases}}}
unde cu {\ displaystyle \ lfloor x \ rfloor} este indicată partea întreagă a lui x.
{\ displaystyle F (x) = {\ begin {cases} 0 & x <0 \\ x & 0 \ leq x <1 \\ 1 & x \ geq 1 \ end {cases}}} .
Funcția de supraviețuire
În unele modele este mai util să analizăm probabilitatea ca anumite date numerice să fie mai valoroase decât valoarea {\ displaystyle x} (ca și în viața unui organism, biologic sau mecanic): aceste cazuri sunt tratate de ramura numită analiza supraviețuirii . Funcția de supraviețuire este apoi definită {\ displaystyle S} (din termenul englezescsurvival ) ca complement al funcției de distribuție:
{\ displaystyle S (x) = P (X> x) = 1-F (x)}
În cazurile respective, continue și discrete, identitățile care le reflectă pe cele ale distribuției se aplică în mod natural:
{\ displaystyle S (x) = \ int _ {x} ^ {+ \ infty} f (t) dt}
Și
{\ displaystyle S (x) = \ sum _ {t> x} p (t).}
Fiecare funcție de supraviețuire {\ displaystyle S (x)} este o funcție monotonă în scădere , și anume{\ displaystyle S (a) \ leq S (b)} pentru {\ displaystyle a> b.}
Timp{\ displaystyle x = 0} reprezintă originea, de obicei începutul unui studiu sau începutul funcționării unor sisteme.
Variabile aleatorii multivariate
Mai general, funcția de distribuție a unei variabile aleatorii{\ displaystyle X} la valori în {\ displaystyle \ mathbb {R} ^ {k}} este funcția {\ displaystyle F (x)} condominiu {\ displaystyle \ mathbb {R} ^ {k}} și variază intervalul {\ displaystyle [0,1]} definit de
{\ displaystyle F (x_ {1}, \ ldots, x_ {k}) = P ((X_ {1} \ leq x_ {1}) \ cap (X_ {2} \ leq x_ {2}) \ cap \ ldots \ cap (X_ {k} \ leq x_ {k}))}
unde este {\ displaystyle X_ {i}} sunt componentele {\ displaystyle X} .
Această funcție are proprietatea de a fi continuu drept separat pentru fiecare variabilă. Următoarele formule sunt, de asemenea, valabile, care derivă din definiție:
Pentru orice {\ displaystyle i} , {\ displaystyle \ lim _ {x_ {i} \ to - \ infty} F (x_ {1}, \ ldots, x_ {k}) = 0}
{\ displaystyle F} este monoton crescând separat în fiecare variabilă, adică dacă {\ displaystyle c> 0} , {\ displaystyle F (x_ {1}, \ ldots, x_ {i} + c, \ ldots, x_ {k}) \ geq F (x_ {1}, \ ldots, x_ {i}, \ ldots, x_ { k})}
de sine {\ displaystyle k = 2} pentru simplitate, {\ displaystyle P (a <X_ {1} \ leq b, c <X_ {2} \ leq d) = F (b, d) + F (a, c) -F (a, d) -F (b , c)}
{\ displaystyle \ lim _ {x_ {i} \ to + \ infty} F (x_ {1}, \ ldots, x_ {k}) = G (x_ {1}, \ ldots, x_ {i-1}, x_ {i + 1}, \ ldots, x_ {k})} unde este {\ displaystyle G} este funcția de distribuție a variabilei {\ displaystyle (k-1)} - variat {\ displaystyle (X_ {1}, X_ {2}, \ ldots, X_ {i-1}, X_ {i + 1}, \ ldots, X_ {k})} .
Egalitatea provine și din această din urmă proprietate
În statistici, funcția de distribuție empirică , sau funcția de distribuție cumulativă , este utilizată pentru a descrie fenomene cantitative sau, în orice caz, descrise cu valori măsurate pe scale ordinale , intervale sau proporționale , dar nu dacă sunt măsurate cu o scală nominală .
Funcția de distribuție este de obicei indicată cu {\ displaystyle F (x)} și reprezintă numărul de observații ale fenomenului mai mic sau egal cu valoarea {\ displaystyle x} .
De sine {\ displaystyle x_ {1}, \ ldots, x_ {n}} sunt observațiile (în ordine crescătoare), cu frecvențe relative{\ displaystyle f_ {1}, \ ldots, f_ {n}} funcția de distribuție are expresie analitică
{\ displaystyle F (x) = {\ begin {cases} 0 & x <x_ {1} \\ F_ {i} = \ sum _ {j \ leq i} f_ {j} & x_ {i} \ leq x <x_ {i + 1} \\ 1 & x \ geq x_ {n} \ end {cases}}}