Distribuție conjugată a priori

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În contextul teoriei probabilității bayesiene , dacă distribuțiile posterioare p (θ | x ) sunt în aceeași familie cu distribuția a priori p (θ), cele două distribuții sunt definite conjugate , iar distribuția a priori se numește a priori distribuție conjugată pentru probabilitate. De exemplu, familia distribuției gaussiene este conjugată cu ea însăși (sau auto-conjugată ) în raport cu o funcție de probabilitate gaussiană: dacă funcția de probabilitate este gaussiană, alegerea unei distribuții gaussiene a priori pentru medie va asigura că distribuția a ( de medie) va fi în continuare gaussian. Aceasta înseamnă că distribuția gaussiană este o distribuție a priori conjugată pentru probabilitatea care este și gaussiană. Conceptul, precum și termenul „ prior conjugat ”, au fost introduse de Howard Raiffa și Robert Schlaifer în lucrarea lor asupra teoriei deciziilor bayesiene. [1] Un concept similar a fost descoperit independent de George Alfred Barnard . [2]

Să luăm în considerare problema generală a deducerii unei distribuții pentru un parametru θ pe baza datului (datelor) x . Din teorema lui Bayes , distribuția probabilității posterioare este egală cu produsul funcției de probabilitate și distribuția de probabilitate anterioară p (θ), normalizată (împărțită) la probabilitatea datelor p (x):

Funcția de probabilitate să fie considerată fixă; funcția de probabilitate este de obicei bine determinată pe baza ipotezelor procesului de generare a datelor (de exemplu, probabilitatea datelor referitoare la măsurători de lungime poate fi descrisă în majoritatea cazurilor experimentale de o funcție gaussiană sau în cazul datelor referitoare la aruncarea repetată a unei monede dintr-o funcție binomială etc.). Este clar că alegerile distincte ale distribuției a priori p (θ) pot face integralul care exprimă distribuția a posteriori mai mult sau mai puțin dificil de calculat, iar produsul p ( x | θ) × p (θ) poate lua o anumită aspect algebric mai degrabă decât altul. Pentru unele alegeri ale distribuției a priori, distribuția a posteriori are aceeași formă algebrică (în general cu valori diferite ale parametrilor de distribuție). Acest tip de alegere este o distribuție a priori conjugată .

O distribuție conjugată a priori este convenabilă din punct de vedere algebric, deoarece oferă o expresie de formă închisă pentru distribuția a posteriori: alternativ, poate fi necesar să se calculeze o integrală numerică. Mai mult, distribuțiile a priori conjugate pot oferi informații despre modul în care funcția de probabilitate actualizează distribuția a priori.

Toți membrii familiei exponențiale au distribuții a priori conjugate. Vezi Gelman și colab. [3] pentru o clasificare.

Exemplu

Forma unei distribuții a priori conjugate poate fi determinată în general prin examinarea funcției de densitate a probabilității sau a funcției de probabilitate a densității de masă (adică cazul discret corespunzător). De exemplu, luați în considerare o variabilă aleatorie de tipul procesului Bernoulli (adică o secvență aleatorie de cazuri „favorabilă”, „nefavorabilă”, de exemplu 0 sau 1, sau adevărat sau fals etc.) cu probabilitate de succes q în [0, 1] necunoscut. Funcția densității probabilității are forma:

Exprimat ca o funcție a ia forma

pentru unele constante Și . În general, această formă funcțională va avea un factor multiplicativ suplimentar ( constanta de normalizare asigurând că funcția este o distribuție de probabilitate , adică integralul său pe întregul său domeniu este egal cu 1). Acest factor va fi adesea o funcție a și de , dar nu va depinde niciodată de .

De fapt, distribuția a priori conjugată este de obicei distribuția beta cu

unde este Și sunt alese în conformitate cu unele credințe sau informații existente ( = 1 și = 1 ar da o distribuție uniformă ) și Β ( , ) este funcția Beta care acționează ca o constantă de normalizare .

În acest context, Și se numesc hiperparametri (parametri ai distribuției a priori), pentru a-i deosebi de parametrii modelului de bază ( q în acest caz). O caracteristică tipică a distribuțiilor a priori conjugate este că cardinalitatea hiperparametrilor este mai mare cu una decât cea a parametrilor distribuției inițiale. Dacă toți parametrii sunt valori scalare, aceasta înseamnă că va exista încă un hiperparametru decât parametrii; dar acest lucru se aplică și în cazul parametrilor de tip vector sau matrice. (A se vedea articolul general despre familia exponențială și ia în considerare și distribuția Wishart , conjugată distribuția a priori a matricei de covarianță a distribuției normale multivariate , pentru un exemplu în care este implicată o cardinalitate ridicată).

Dacă vom proba această variabilă aleatoare a obține s succese și eșecuri f, avem:

care este o altă distribuție beta cu o variație simplă (hiper) a parametrilor. Această distribuție a posteriori ar putea fi apoi utilizată ca distribuție a priori pentru eșantionare ulterioară, cu hiperparametri incluzând orice alte informații suplimentare pe măsură ce se întâmplă acest lucru.

Pseudo-observații

Este adesea util să ne gândim la hiperparametri ca fiind corespunzătoare unui număr de pseudo-observații cu proprietăți specificate de hiperparametri. De exemplu, valorile Și din distribuția beta poate fi considerată ca fiind corespunzătoare succese și eșecuri dacă se utilizează moda a posteriori pentru a alege o selecție parametrică optimă sau succese și eșecuri dacă s-a ales media a posteriori. În general, pentru aproape toate distribuțiile a priori conjugate, hiperparametrii pot fi interpretați în termeni de pseudo-observații. Acest lucru poate ajuta atât la ghicirea formei ecuațiilor, cât și la alegerea hiperparametrilor rezonabili pentru distribuția a priori.

Interpretări

Analogie cu funcțiile de sine

Distribuțiile a priori conjugate sunt analoage funcțiilor proprii din teoria operatorilor , în sensul că sunt distribuții asupra cărora „operatorul condiționat” acționează pentru a asigura distribuția posterioară.

În ambele cazuri, există un spațiu de dimensiune finită care este păstrat de operator: rezultatul este de aceeași formă (în același spațiu inițial) ca funcția pe care acționează operatorul. Acest lucru simplifică foarte mult analiza, care altfel ar considera un spațiu infinit dimensional (spațiul tuturor funcțiilor, spațiul tuturor distribuțiilor de probabilitate).

Cu toate acestea, cele două procese sunt doar analoage, nu identice: operatorul de condiționare nu este liniar, deoarece spațiul distribuțiilor nu este închis în combinație liniară , doar combinație convexă , iar distribuția posterioară este doar de aceeași formă ca cea a priori , nu un multiplu scalar.

De fapt, fiind posibil să analizăm cu ușurință modul în care evoluează o combinație liniară de funcții proprii sub aplicația unui operator, în același mod este posibilă analiza cu ușurință a evoluției unei combinații convexe de distribuții a priori conjugate sub operatorul de condiționare. Acesta din urmă este numit folosind o distribuție hiperpriorică și este echivalent cu utilizarea unui amestec de densitate de distribuții a priori conjugate, mai degrabă decât o distribuție a priori conjugată unică.

Sistem dinamic

Este posibil să ne gândim la condiționarea distribuțiilor a priori conjugate ca la un tip de sistem dinamic (cu unități de timp discrete): pornind de la un set dat de hiperparametri, datele pe măsură ce ajung actualizează acești parametri, deci este posibil să vedem variația lor ca un fel de „evoluție temporală”, corespunzătoare unei „învățări”. Plecările din puncte distincte oferă evoluții temporale diferite. Acest lucru este încă analog unui sistem dinamic definit de un operator liniar, dar rețineți că, din moment ce eșantioanele distincte conduc la inferențe diferite, nu există o simplă dependență de timp, ci mai degrabă de evoluția datelor în timp. Pentru abordări conexe, a se vedea estimarea recursivă bayesiană și asimilarea datelor .

Tabelul distribuțiilor conjugate

n indică numărul de observații.

Dacă funcția de probabilitate aparține familiei exponențiale , atunci există o distribuție conjugată a priori, adesea și în cadrul familiei exponențiale.

Distribuții de probabilitate discrete

Probabilitate Parametrii modelului Distribuție conjugată a priori Hiperparametrii distr. primul Hiperparametrii distr. în urma Interpretarea hiperparametrelor [nota 1] Distr. predictiv a posteriori [nota 2]
Bernoulli p (probabilitate) Beta succese, eșecuri [Nota 1]
Binom p (probabilitate) Beta succese, eșecuri [Nota 1]
( beta-binom )
Binom negativ
cu numărul cunoscut de eșecuri r
p (probabilitate) Beta succes total, eșecuri [nota 1] (adică experimente, presupunând că stai fix)
Poisson λ (rata) Gamă total de apariții în intervale
( binom negativ )
Poisson λ (rata) Gamă [nota 3] total de apariții în intervale
( binom negativ )
Categoric p (vector de probabilitate), k (numărul de categorii, adică mărimea lui p ) Dirichlet unde este este numărul de observații din categoria i apariții de categorii [nota 1]

Multinomial p (vector de probabilitate), k (numărul de categorii, adică mărimea lui p ) Dirichlet apariții de categorii [nota 1]
( Dirichlet multinomial )
Hipergeometric
cu dimensiunea totală a populației N
M (numărul de membri țintă) Beta-binom

[4] || ||

succese, eșecuri [Nota 1]
Geometric p 0 (probabilitate) Beta experimente, eșecuri totale [Nota 1]

Distribuții de probabilitate continuă

Notă : În toate cazurile de mai jos, se presupune că datele constau din n puncte (care vor fi vectori aleatori în cazuri multivariate).

Probabilitate Parametrii modelului Distribuție conjugată a priori Hiperparametrii distr. primul Hiperparametrii distr. în urma Interpretarea hiperparametrelor Distribuție predictivă posterioară [Nota 4]
Normal
cu varianță cunoscută σ 2
μ (medie) Normal
media este estimată din observații cu precizie totală (suma tuturor preciziunilor individuale) și cu media eșantionului [5]
Normal
cu precizie cunoscută τ
μ (medie) Normal media este estimată din observații cu precizie totală (suma tuturor preciziunilor individuale) și cu media eșantionului [5]
Normal
cu media cunoscută μ
σ 2 (varianță) Interval invers [nota 5] varianța este estimată de la eșantion de observații de varianță (adică cu suma abaterilor pătratice ) [5]
Normal
cu media cunoscută μ
σ 2 (varianță) Alpinism chi-pătrat invers varianța este estimată de la observații cu varianță eșantion [5]
Normal
cu media cunoscută μ
τ (precizie) Gamă [nota 3] precizia este estimată de la observații cu varianță eșantion (adică cu suma abaterilor pătratice ) [5]
Normal μ și σ 2
Presupunând schimbul
Interval normal-invers
  • este media eșantionului
media este estimată de la observații cu media eșantionului ; varianța este estimată de la observații cu proba medie și varianța eșantionului (adică ca sumă a abaterilor pătratice ) [5]
Normal μ și τ
Presupunând schimbul
interval normal
  • este media eșantionului
media este estimată de la observații cu proba medie , iar precizia este estimată de la observații cu proba medie și varianța eșantionului (adică ca sumă a abaterilor pătratice ) [5]
Multivariabil normal cu matrice de covarianță cunoscută Σ μ (medie vectorială) Multivariat normal
  • este media eșantionului
media este estimată din observații cu precizie totală (suma tuturor preciziunilor individuale) și cu media eșantionului [6]
Multivariat normal cu matrice de precizie cunoscută Λ μ (medie vectorială) Multivariat normal
  • este media eșantionului
media este estimată din observații cu precizie totală (suma tuturor preciziunilor individuale) și cu media eșantionului [5]
Multivariabil normal cu media cunoscută μ Σ (matrice de covarianță) Wishart-invers varianza è stimata da osservazioni con somma di deviazioni quadratiche [5]
Normale multivariata con media nota μ Λ (matrice di precisione) Wishart la precisione è stimata da osservazioni con somma di deviazioni quadratiche [5]
Normale multivariata μ (media vettore) and Σ (matrice di covarianza) Wishart normale-inversa
  • è la media campionaria
la media è stimata da osservazioni con media campionaria ; la varianza è stimata da osservazioni con media campionaria e con somma di deviazioni quadratiche [5]
Normale multivariata μ (media vettore) and Λ (matrice di precisione) Wishart normale
  • è la media campionaria
la media è stimata da osservazioni con media campionaria ; la varianza è stimata da osservazioni con media campionaria e con somma di deviazioni quadratiche [5]
Uniforme Pareto osservazioni con valore massimo
Pareto
con minimo noto x m
k (forma) Gamma osservazioni con somma dell' ordine di grandezza di ogni osservazione (cioè il logaritmo del quoziente tra ciascuna osservazione e il minimo )
Weibull
con forma nota β
θ (scale) Gamma inversa [4] osservazioni con somma della β' -esima potenza di ogni osservazione
Weibull
con fattore di scala noto θ
β (forma) [4] osservazioni con somma del logaritmo di ogni osservazione e della somma della β' -esima potenza di ogni osservazione
Log-normale
con precisione nota τ
μ (media) Normale [4] "media" è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali) e con media campionaria
Log-normale
con media nota μ
τ (precisione) Gamma [4] [nota 3] la precisione è stimata da osservazioni con varianza campione (cioè come somma di deviazioni log-quadratiche — cioè deviazioni tra il logaritmo dei dati puntuali e la "media")
Esponenziale λ (rateo) Gamma [nota 3] osservazioni che sommano a
Gamma
con forma nota α
β (rateo) Gamma osservazioni con somma [nota 6]
Gamma inversa
con forma nota α
β (scala inversa) Gamma osservazioni con somma
Gamma
con rateo noto β
α (forma) o osservazioni ( per stimare , per stimare ) con prodotto
Gamma [4] α (forma), β (scala inversa) è stimata da osservazioni con prodotto ; è stimato da osservazioni con somma

Note

Esplicative

  1. ^ Howard Raiffa and Robert Schlaifer . Applied Statistical Decision Theory . Division of Research, Graduate School of Business Administration, Harvard University, 1961.
  2. ^ Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics , "conjugate prior distributions" . Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
  3. ^ Andrew Gelman , John B. Carlin, Hal S. Stern, and Donald B. Rubin. Bayesian Data Analysis , 2nd edition. CRC Press, 2003. ISBN 1-58488-388-X .
  4. ^ a b c d e f D. Fink, A Compendium of Conjugate Priors , in DOE contract 95‑831 , 1997, CiteSeerX : 10.1.1.157.5540 .
  5. ^ a b c d e f g h i j k l Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [1]
  6. ^ Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [2] Si noti che è una Distribuzione normale o una distribuzione normale multivariata ; è una distribuzione t di Student o una distribuzione di Student multivariata .

Bibliografiche

  1. ^ a b c d e f g h L'esatta interpretazione dei parametri di una distribuzione Beta in termini di numero di successi ed insuccessi dipende da quale funzione è usata per estrarre una stima puntuale dalla distribuzione. La moda della distribuzione Beta è la quale corrisponde a successi e insuccessi; ma la media è la quale corrisponde a successi e insuccessi. L'impiego di e ha il vantaggio che una distribuzione a priori uniforme corrisponde a 0 successi e 0 insuccessi, ma l'impiego di e è in qualche modo matematicamente più conveniente ed anche ben corrisponde con l fatto che i bayesiani generalmente preferiscono usare la media a posteriori piuttosto che la moda a posteriori come stima puntuale. Lo stesso discorso si applica alla Distribuzione di Dirichlet .
  2. ^ Questa è la distribuzione predittiva a posteriori del nuovo dato puntuale una volta risultati i dati puntuali, con i parametri marginalizzati fuori . Variabili con l'apostrofo indicano i valori a posteriori dei parametri.
  3. ^ a b c d β è il rateo o scala inversa. Nella parametrizzazione della distribuzione Gamma , θ = 1/ β e k = α .
  4. ^ Questa è la distribuzione predittiva a posteriori di un nuovo dato puntuale una volta risultanti i dati puntuali osservati, con i parametri marginalizzati fuori . Variabili con l'apostrofo indicano i valori a posteriori dei parametri. e si riferiscono alla Distribuzione normale ed alla Distribuzione t di Student , rispettivamente, o alla distribuzione normale multivariata e alla distribuzione t multivariata nei casi multivariati.
  5. ^ In termini della Gamma inversa , e un parametro di scala
  6. ^ e una distribuzione Gamma composta ; qui è una distribuzione Beta del secondo tipo generalizzata ( distribuzione Beta del secondo tipo generalizzata ).

Collegamenti esterni