Distribuția beta-binomială

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În teoria probabilității, distribuția aleatorie beta-binomială este o familie de distribuții de probabilitate discrete care pot fi văzute ca o generalizare a distribuției binomiale . Descrie distribuția numărului de succese pe n experimente independente da / nu, dar, spre deosebire de distribuția binomială, probabilitatea de succes nu este un parametru fix π, ci este o valoare distribuită ca variabilă aleatorie Beta B (a, b). Este de fapt un amestec de binomii în care parametrul π are o distribuție beta.

Distribuția beta-binomială depinde de trei parametri: n , a , b .

Definiție

Dacă X ~ BeB (n, a, b) este o variabilă aleatorie distribuită ca o variabilă aleatoare beta-binomială cu parametrii n , a , b atunci pentru

unde constanta C este dată de

Și este funcția gamma .

O modalitate alternativă de a descrie BeB (n, a, b) este dată de

unde este este funcția beta a lui Euler .

Caracteristici

Valoarea așteptată depinde de toți cei trei parametri

precum și varianța

asimetria este indicată cu

=

Folosind notația valoarea și varianța așteptate pot fi descrise într-o formă care seamănă cu cea a variabilei aleatoare binomiale.

din care se observă că cu aceeași valoare așteptată (și n ) variabila aleatoare beta-binomială are întotdeauna o varianță mai mare decât variabila aleatoare binomială.

iar asimitria este indicată cu

și astfel, de asemenea, în acest caz devine evident modul în care asimetria beta-binomului este întotdeauna mai mare decât asimetria binomului, cu aceeași valoare așteptată (și n ).

Cazuri speciale

În cazul în care a = 1 și b = 1, atunci este o variabilă aleatorie uniformă discretă cu P (X = x) = 1 / (n + 1) deoarece există n + 1 valori posibile.

Domenii de aplicare

Variabila aleatoare beta-binomială este potrivită pentru descrierea fenomenelor descrise de obicei de variabila aleatoare binomială, cu toate acestea, dacă probabilitatea variază.

Un posibil caz este de a prezice câte becuri se vor arde în decurs de 1 an de la instalare știind că probabilitatea ca acestea să se ardă nu este aceeași pentru toți, dar poate fi descrisă de o variabilă aleatorie Beta.

În mod similar, dacă ne confruntăm cu un model care ar trebui descris de o variabilă aleatoare binomială, dar unde datele arată o distribuție foarte „mare”, atunci se poate suspecta că probabilitatea evenimentelor nu este constantă, dar variază în jurul valorii ca în modelul beta-binomial.

Exemple

Probabilitatea de a extrage X bile roșii dintr-o urnă a cărei compoziție este cunoscută doar aproximativ

Un model

În contextul inferenței bayesiene , dintr-o urnă din care numărul de bile prezente este ignorat, dar care din extracțiile anterioare pare că există un procent de bile roșii care variază ca o variabilă aleatorie Beta (a, b), trebuie extrasă (și reintrodus de fiecare dată) n bile. Întrebarea este care este probabilitatea ca x dintre acestea să fie roșii. Răspunsul se află în variabila aleatorie BetaB (n, a, b)

Exemplu numeric

Plecând de la un concept de ignoranță completă care ne conduce să descriem distribuția a priori ca o variabilă aleatorie uniformă continuă și, prin urmare, ca o Beta (1,1), se extrag 15 bile, dintre care doar una este roșie. În acest fel, probabilitatea posterioară devine o variabilă aleatorie Beta (1 + 1,1 + 14) = Beta (2,15).

În acest moment, se decide efectuarea unei extracții suplimentare de 40 de bile și întrebarea este care este probabilitatea ca exact două dintre acestea să fie roșii.

Deoarece în această a doua extracție probabilitatea P (X = x) este cea a unei variabile aleatorii BetaB (40,2,15) obținem că

unde este

și a fi și în plus fiind în general prin urmare

primesti

Cele două variabile aleatorii utilizate în exemplu

Acest rezultat este diferit de ceea ce s-ar fi obținut folosind estimarea punctuală ca probabilitate de succes, adică proporția simplă obținută în prima serie de extracții (1/15 = 6,67%) și aplicând variabila aleatoare binomială pentru a doua. B (n = 40, p = 1/15). În acest caz, s-ar fi obținut P (X = 2 | n = 40, p = 1/15) = 25,19%.

Graficul evidențiază faptul că variabila aleatorie B (n = 40, p = 1/15) este mult mai „îngustă” decât BetaB (40,2,15), acest lucru se datorează faptului că în abordarea bayesiană nu „uităm” că există o incertitudine cu privire la proporția reală a bilelor roșii și această incertitudine face probabil valori și mai „îndepărtate”.

Alegerea bayesiană între două modele: Extragerea dintr-o urnă: determinați cu care urnă cunoscută corespunde o urnă

  • Se știe că o urnă are un procent necunoscut de bile roșii.
  • Se știe că urna este fie urna A, fie urna B.
  • În ultimele 10 bile au fost extrase din urna A, dintre care 2 sunt roșii (deci 20%),
  • în timp ce din urna B din trecut din 15 bile extrase, 10 erau roșii (egal cu 67%).
  • Nu există nimic care să sugereze că urna în cauză este mai degrabă urna A decât urna B.
  • Nici din urna A, nici din urna B nu se cunoaște numărul total de bile.
  • Din urna în cauză se extrag 50 de bile, dintre care 12 sunt roșii (24%).

Cereri

  • care este probabilitatea ca urna în cauză să fie urna A?
  • care este distribuția posterioară a procentului de bile roșii?
  • care este probabilitatea ca de la urna în cauză la următoarea extragere de 10 bile, nici măcar o dată să nu iasă una roșie?

Prin urmare, în contextul inferenței bayesiene se poate spune că

  • probabilitatea a priori ca urna în cauză să fie urna A este egală cu P (U = A) = 1/2 și în consecință P (U = B) = 1-P (U = A) = 1/2
  • pentru urna A, datorită extragerii a 10 bile, dintre care 2 sunt roșii, distribuția posterioară a procentului de bile roșii este o variabilă aleatorie Beta , în cazul în care distribuția a priori este dreptunghiulară, echivalentă cu o beta (1,1)
  • în mod similar pentru urna B, distribuția a posteriori este una

Pentru a continua este necesar să recurgeți la variabila aleatoare beta-binomială, de fapt știind că din cele 50 de bile trase 12 sunt roșii, probabilitatea poate fi calculată fie că este urna A, după cum urmează

că datorită faptului că P (U = B) = 1-P (U = A) = 1/2 = P (U = A) este simplificat prin obținerea

ținând cont de valorile exemplului, se calculează

aceasta înseamnă că probabilitatea ca urna în cauză să fie urna A este de 98,4%. Acest rezultat este de înțeles, având în vedere că 24% din urna necunoscută este mult mai aproape de 20% din urna A decât 67% din urna B.

Luând în considerare primele două extrageri (când erau cunoscute urnele) și extragerea din urna al cărei nume a fost pierdut, și faptul că 98,4% din urna în cauză este urna A, dar că există încă o probabilitate de 1,6% ca este urna B, procentul de bile roșii din această urnă din care nu se știe care dintre cele două este descris prin amestecul celor două variabile aleatorii (cu i = A, B) ponderat cu probabilitățile P (U = i | X = x, n).

Odată cunoscut acest amestec de variabile aleatorii, este posibil să se calculeze probabilitatea ca la următoarea extracție a 10 bile să nu fie una roșie. Pentru a face acest lucru este necesar să recurgeți la tehnici de calcul numeric .

Bibliografie

  • ( DE ) Leonhard Held, Methoden der statistischen Inferenz. Likelihood und Bayes , cu colaborarea lui Daniel Sabanés Bové, Spektrum Akademischer Verlag Heidelberg 2008, ISBN 978-3-8274-1939-2
  • (EN) Jim Albert, Computarea Bayesiană cu R, Springer New York, 2009, ISBN 978-0-387-92297-3 [1] [ conexiune întreruptă ]

linkuri externe