Estimator Bayes

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În teoria estimării și teoria deciziei , un estimator Bayes sau acțiunea Bayes este un estimator sau o regulă de decizie care minimizează valoarea așteptată a funcției de probabilitate sau pierdere posterioară (adică pierderea așteptată posterioară ). În mod echivalent, maximizează valoarea așteptată a posteriori a unei funcții utilitare. O formă alternativă de formulare a estimatorilor în statisticile bayesiene este estimarea maximă posterioară .

Definiție

Să presupunem că un parametru necunoscut θ este cunoscut ca având o distribuție a probabilității a priori . Este un estimator de θ (pe baza unor măsurători x ) și let o funcție de pierdere , cum ar fi o eroare pătratică. Riscul lui Bayes de este definit ca , unde valoarea așteptată este calculată peste distribuția de probabilitate a : aceasta definește funcția de risc ca o funcție a . Un estimator se spune că este un estimator Bayes dacă este cel care minimizează riscul Bayes al tuturor estimatorilor. În mod echivalent, estimatorul care minimizează pierderea posterioară așteptată pentru fiecare x, de asemenea, minimizează riscul Bayes și, prin urmare, este un estimator Bayes. [1]

Dacă distribuția a priori este necorespunzătoare, atunci un estimator care minimizează pierderea așteptată posterioară pentru fiecare x se numește un estimator Bayes generalizat . [2]

Exemple

Estimarea erorii minime pătrate

Funcția de pericol cea mai frecvent utilizată pentru estimarea bayesiană este „ eroarea medie pătrată, de asemenea, a spus riscul pătratic de eroare, MSE (eroare pătrată medie de la). MSE este definit prin

unde valoarea așteptată este calculată peste distribuția comună a și .

Mass-media a posteriori

Folosind MSE ca risc, estimarea Bayes a parametrului necunoscut este pur și simplu media distribuției posterioare ,

Acest lucru este cunoscut ca un estimator al „erorii pătrate medii minime, MMSE (eroare pătrată medie minimă de la). Riscul Bayes, în acest caz, este varianța posterioară.

Estimatori Bayes pentru distribuții a priori conjugate

Pictogramă lupă mgx2.svg Același subiect în detaliu: Conjugați distribuția a priori .

Dacă nu există niciun motiv intrinsec pentru a prefera o distribuție a priori în fața alteia, atunci pentru simplitate se alege o distribuție a priori conjugată . O distribuție a priori conjugată este definită ca o distribuție a priori aparținând unei familii parametrice , pentru care distribuția posterioară rezultată aparține și aceleiași familii. Aceasta este o proprietate importantă, deoarece estimatorul Bayes, precum și proprietățile sale statistice (varianță, interval de încredere etc.), pot fi toate derivate din distribuția posterioară.

Distribuțiile a priori conjugate sunt utile în special pentru estimările secvențiale, unde distribuția posterioară a măsurării curente este utilizată ca distribuție a priori pentru următoarea măsurare. În estimarea secvențială, dacă nu se folosește o distribuție a priori, distribuția posterioară devine din ce în ce mai complexă pe măsură ce se fac noi măsurători, iar estimatorul Bayes nu poate fi calculat de obicei decât dacă se aplică metode numerice.

Iată câteva exemple de distribuții a priori conjugate.

  • Dacă x | θ este normal , x | θ ~ N (θ, σ 2 ), iar distribuția a priori este normală, θ ~ N (μ, τ 2 ), atunci distribuția a posteriori este de asemenea normală și estimatorul Bayes ' sub MSE este dat de
  • Dacă x 1 , ..., x n sunt variabile aleatoare independente și distribuite identic, iid , x i | θ ~ P (θ) Poisson și dacă distribuția a priori este distribuția Gamma care este θ ~ G (a, b ), atunci distribuția posterioară este încă de tip Gamma, iar estimatorul Bayes sub MSE este dat de
  • Dacă x 1 , ..., x n sunt variabile iid cu distribuție uniformă adică x i | θ ~ U (0, θ) și dacă distribuția a priori este de tip Pareto adică θ ~ Pa (θ 0 , a), atunci distribuția posterioară este încă de tip Pareto, iar estimatorul Bayes sub MSE este dat de

Funcții alternative de risc

Funcțiile de risc sunt alese în funcție de modul în care se măsoară distanța dintre estimare și parametrul necunoscut. MSE este cea mai frecventă funcție de risc, în principal datorită simplității sale. Cu toate acestea, se utilizează ocazional funcții de risc alternative. Exemple de astfel de alternative sunt prezentate mai jos. Denotăm funcția de distribuție posterioară generalizată ca fiind .

Mediană a posteriori și alte cuantile

  • O funcție de pierdere „liniară”, cu , care dă mediana posterioară după cum estimează Bayes:
  • O altă funcție de pierdere „liniară”, care atribuie „greutăți” diferite la supra sau sub estimare. Oferă un cuantil din distribuția posterioară și constituie o generalizare a funcției de pierdere anterioare:

Moda retrospectivă

  • Următoarea funcție de pierdere este mai complicată: oferă moda a posteriori sau un punct apropiat de ea în funcție de curbură și proprietățile distribuției posterioare. Pentru a folosi moda ca aproximare ( ), se recomandă valori mici ale parametrului :

Pot fi concepute și alte tipuri de funcții de pierdere, deși eroarea pătrată medie este cea mai utilizată și validată.

Estimatori Bayes generalizați

Până acum distribuția a priori s-a presupus că este o distribuție de probabilitate adevărată, adică:

Cu toate acestea, aceasta poate fi uneori o cerință restrictivă. De exemplu, nu există o distribuție (definită pe întregul set R de numere reale) pentru care fiecare număr real este la fel de probabil. Mai mult decât atât, într - un sens, o astfel de „distribuție“ pare a fi alegerea naturala pentru neinformative o distribuție de probabilitate a priori, adică, o distribuție a priori , care nu implică nici o preferință pentru orice valoare particulară a parametrului necunoscut. Este încă posibil să se definească o funcție , dar aceasta nu ar fi o distribuție adecvată a probabilității, deoarece ar avea o masă infinită,

Astfel de măsuri , care nu sunt distribuții de probabilitate, se numesc distribuții a priori necorespunzătoare .

Utilizarea unei distribuții a priori necorespunzătoare înseamnă că riscul Bayes este nedefinit (deoarece distribuția a priori nu este o distribuție de probabilitate și nu poate fi utilizată pentru a calcula valoarea așteptată). În consecință, nu mai are sens să vorbim despre un estimator Bayes care minimizează riscul Bayes. Cu toate acestea, în multe cazuri, este încă posibil să se definească distribuția a posteriori

Aceasta este o definiție și nu o aplicație a teoremei lui Bayes , deoarece aceasta poate fi aplicată numai atunci când toate distribuțiile sunt corecte. Cu toate acestea, nu este neobișnuit ca o astfel de distribuție „a posteriori” să fie o distribuție de probabilitate validă. În acest caz, pierderea retrospectivă așteptată

este de obicei bine definit și finit. Reamintim că, pentru o distribuție a priori adecvată, estimatorul Bayes minimizează pierderea așteptată a posteriori. Atunci când distribuția a priori este necorespunzătoare, un estimator care minimizează pierderea așteptată posterioară se numește estimator Bayes generalizat . [2]

Exemplu

Un exemplu tipic se referă la estimarea unui parametru de poziție cu o funcție de pierdere de tip . Aici este un parametru de poziție, adică .

În acest caz este obișnuit să se utilizeze distribuția necorespunzătoare a priori , mai ales atunci când nu sunt disponibile alte informații suplimentare subiective. Aceasta oferă:

deci pierderea așteptată posterioară este egală cu

Valoarea este estimatorul generalizat Bayes ceea ce minimizează această expresie pentru toți . Acest lucru echivalează cu minimizarea

pentru (1)

Se poate arăta că, în acest caz, estimatorul generalizat Bayes ia forma , pentru unele constante . Pentru a realiza asta, fie valoarea de minimizare (1) când . Deci, având în vedere o valoare diferită , trebuie să minimalizăm

(2)

Aceasta este identică cu (1), cu excepția faptului că a fost înlocuit cu . Prin urmare, expresia de minimizare este dată de , astfel încât estimatorul optim să ia forma

Estimatori empirici Bayes

Un estimator Bayes derivat prin metoda empirică Bayes se numește estimator empiric Bayes . Metodele empirice Bayes permit, în dezvoltarea unui estimator Bayes, utilizarea datelor empirice auxiliare din observațiile parametrilor înrudiți. Acest lucru se face presupunând că parametrii estimați sunt obținuți dintr-o distribuție a priori comună. De exemplu, dacă se fac observații independente ale parametrilor diferiți, atunci performanța în estimarea unui anumit parametru poate fi uneori îmbunătățită prin utilizarea datelor din alte observații.

Există abordări parametrice și non-parametrice ale estimării empirice Bayes. Forma parametrică este de obicei preferată datorită aplicabilității și preciziei sale mai mari pe cantități mici de date. [3]

Exemplu

Următorul este un exemplu simplu de estimare parametrică empirică a lui Bayes. Având în vedere observațiile deja cunoscute având distribuție condiționată , cineva este interesat de estimare bazat pe . Presupunem că au o distribuție anterioară comună în funcție de unii parametri necunoscuți. De exemplu, să presupunem că este distribuit în mod normal cu suporturi media și varianță necunoscute. Putem folosi apoi observațiile cunoscute pentru a determina media și varianța în felul următor.

În primul rând, să estimăm media și varianța a distribuției marginale a folosind abordarea de maximă probabilitate :

Apoi, să folosim relațiile:

unde este Și sunt momentele de distribuție condiționată , despre care se presupune că sunt cunoscute. Mai exact, să presupunem că este asta ; avem atunci

În cele din urmă, obținem estimarea momentelor distribuției a priori

De exemplu, dacă , și dacă presupunem o distribuție normală a priori (care în acest caz este o distribuție a priori conjugată ), concluzionăm că , din care estimatorul Bayes bazat pe poate fi calculat.

Proprietate

Admisibilitate

Regulile Bayes cu risc Bayes finit sunt de obicei admisibile . Urmează diverse exemple specifice de teoreme de admisibilitate.

  • Dacă o regulă Bayes este unică, atunci este permisă. [4] De exemplu, după cum sa menționat mai sus, în conformitate cu eroarea pătrată medie (MSE), regula Bayes este unică și, prin urmare, admisibilă.
  • Dacă θ aparține unui set discret, atunci toate regulile lui Bayes sunt admisibile.
  • Dacă θ aparține unui set continuu (nediscret) și dacă funcția de risc R (θ, δ) este continuă în θ pentru fiecare δ, atunci toate regulile Bayes sunt admisibile.

În schimb, regulile Bayes generalizate au deseori un risc Bayes nedefinit în cazul unei distribuții necorespunzătoare a priori. Aceste reguli sunt adesea inadmisibile și verificarea eligibilității lor poate fi dificilă. De exemplu, estimatorul Bayes generalizat al unui parametru de poziție θ bazat pe eșantioane Gaussiene (descris în paragraful „Estimator Bayes generalizat” de mai sus) este inadmisibil pentru ; acest lucru este cunoscut sub numele de fenomenul lui Stein .

Eficiență asimptotică

Fie θ o variabilă aleatorie necunoscută și să presupunem că sunt probe Iid cu densitate . Este o secvență de estimatori Bayes de θ pe baza unui număr tot mai mare de măsurători. Suntem interesați de analiza performanței asimptotice a acestei secvențe de estimatori, adică a performanței pentru n valori mari.

În acest scop, este convenabil să considerăm θ ca un parametru non-aleatoriu a cărui valoare reală este . În condiții specifice, [5] pentru eșantioane mari (valori mari de n ), densitatea posterioară a lui θ este aproximativ normală. Cu alte cuvinte, pentru n mare, efectul probabilității distribuției a priori asupra distribuției a posteriori este neglijabil. Mai mult, dacă δ este estimatorul Bayes sub riscul MSE, atunci este asimptotic imparțial și converge în distribuție la distribuția normală :

unde I0 ) este informația Fisher de θ 0 . Rezultă că estimatorul Bayes under n din MSE este asimptotic eficient .

Un alt estimator asimptotic normal și eficient este estimatorul de maximă probabilitate (MLE). Relațiile dintre probabilitatea maximă și estimatorii Bayes pot fi prezentate în următorul exemplu simplu.

Să luăm în considerare estimatorul lui θ pe baza eșantionului binomial x ~ b (θ, n ) unde θ denotă probabilitatea de succes. Presupunând că θ este distribuit în funcție de distribuția conjugată a priori , care în acest caz este distribuția beta B ( a , b ), distribuția posterioară este cunoscută a fi B (a + x, b + nx). Prin urmare, estimatorul Bayes în cadrul MSE este

MLE în acest caz este x / n și astfel obținem,

Ultima ecuație implică faptul că, pentru n → ∞, estimatorul Bayes (în problema în cauză) este aproape de MLE.

Pe de altă parte, când n este mic, informațiile a priori sunt încă relevante pentru problema deciziei și afectează estimarea. Pentru a vedea greutatea informațiilor a priori, presupunem că a = b ; în acest caz, fiecare măsurare aduce un nou bit de informații; formula de mai sus arată că informațiile a priori au aceeași greutate ca un + b bit de informații noi. În cazul practic, se știe adesea foarte puțin despre detaliile mai fine ale distribuției a priori; în special, nu există niciun motiv să presupunem că coincide exact cu B ( a , b ). În acest caz, o posibilă interpretare a acestui calcul este: „există o distribuție apriorică nepatologică cu o valoare medie de 0,5 și abaterea standard d care dă o greutate informațională a priori egală cu 1 / (4 d 2 ) -1 un pic de informații noi ".

Notă

  1. ^ Lehmann și Casella, teorema 4.1.1
  2. ^ a b Lehmann și Casella, definiție 4.2.9
  3. ^ Berger (1980), sesiunea 4.5
  4. ^ Lehmann și Casella (1998), Teorema 5.2.4.
  5. ^ Lehmann și Casella (1998), sesiunea 6.8

Bibliografie

  • EL Lehmann, Casella, G., Theory of Point Estimation , Springer, 1998, pp. Ediția a II-a, ISBN 0-387-98502-6 .
  • James O. Berger, Statistic decision theory and Bayesian Analysis , ediția a doua, New York, Springer-Verlag, 1985, ISBN 0-387-96098-8 , MR 0804611 .

linkuri externe

Statistici Portal de statistici : accesați intrările Wikipedia care se ocupă de statistici