Inferință statistică

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Inferința statistică (sau statisticile inferențiale) este procesul prin care acestea induc caracteristicile unei populații din „ observarea unei părți din aceasta (numită„ eșantion ”), selectată de obicei printr-un experiment aleatoriu (aleatoriu). Din punctul de vedere al filozofiei , este vorba de matematică tehnică pentru a cuantifica procesul de învățare prin „ experiență ”.

Vor lua în considerare în principal eșantioane simple de mărime n> 1, care pot fi interpretate ca n realizări independente ale unui experiment de bază, în aceleași condiții. Deoarece considerăm un experiment aleatoriu, acesta implică calculul probabilităților . În inferența statistică există, într-un anumit sens, o inversare a punctului de vedere cu privire la calculul probabilităților. În cadrul acestuia din urmă, cunoscut procesul de generare a datelor experimentale (model probabilistic), suntem capabili să evaluăm probabilitatea diferitelor rezultate posibile ale unui experiment. În statistici, procesul de generare a datelor experimentale nu este pe deplin cunoscut (procesul în cauză este, în cele din urmă, obiectul investigației), iar tehnicile statistice vizează inducerea caracteristicilor acestui proces pe baza observării datelor experimentale generate de aceasta.

Istorie

În istoria statisticii, inferența a cunoscut două mari perioade. Primul a început la sfârșitul secolului al XIX-lea și s-a dezvoltat într-un mod decisiv în prima jumătate a secolului al XX-lea, cu lucrările lui R. Fisher , K. Pearson , Jerzy Neyman , Egon Pearson și Abraham Wald cu ideile de bază despre verosimilitatea , puterea testării statistice a ipotezelor, intervalele de încredere și altele.

A doua mare perioadă, încă în desfășurare, a fost posibilă datorită puterii de calcul din ce în ce mai mari a computerelor, disponibilă la prețuri din ce în ce mai accesibile. Acest lucru ne-a permis să ne îndepărtăm de ipoteze confortabile din punct de vedere matematic, dar nu întotdeauna adecvat realității, punând în practică ideile antice precum Bayesian, găsind aplicații practice numai în prezența puterii de procesare a computerului, precum și tehnicile de resamplare a datelor metoda Monte Carlo , bootstraping , metoda cuțitului etc. legat de John von Neumann , Stanislaw Marcin Ulam , Bradley Efron , Richard von Mises și alții.

Descriere

Două abordări

În inferența statistică, există două școli de gândire, legate de concepții sau interpretări diferite ale sensului probabilității :

Primul este legat de contribuțiile istorice ale lui R. Fisher , K. Pearson și reprezintă punctul de vedere majoritar. Al doilea, în prezent ( 2005 ) încă minoritar, dar în creștere, se bazează pe utilizarea rezultatului teoremei lui Bayes pentru inferența statistică.

Există de fapt o a treia abordare, care este totuși o provocare pentru conceptul de inferență, adică subiectivismul statistic susținut de inginerul și matematicianul Bruno De Finetti. În special, De Finetti contestând posibilitatea ontologică că există cazuri repetabile, contestă fiabilitatea statisticilor frecventiste. Emblematic pentru această poziție este următorul pasaj din De Finetti „ Există anumite diferențe între diferite cazuri, de exemplu, pentru loterie, două bile diferite diferă cu siguranță cel puțin pentru faptul că poartă două numere diferite 27 și că, la moment de extracție, ocupă două poziții diferite în urnă. De ce nu se iau în considerare aceste condiții? "(așa la pagina 12 din Bruno de Finetti Probabilism. Eseu critic despre teoria probabilității și valoarea științei , Editrice F. Perrella, Napoli 1931)

Se compară inferența frecvențistă și cea bayesiană

Atât abordarea frecventistă pe care abordarea bayesiană o are în comun, mai presus de toate axiomele probabilității , precum și toată structura statistico-matematică. Chiar și teorema Bayes este valabilă pentru ambele abordări, precum și faptul că în ambele cazuri se vorbește de obicei despre statistici parametrice. Ceea ce se schimbă este semnificația care trebuie acordată conceptului de probabilitate, atitudinii în compararea ideii de probabilitate subiectivă și, în consecință, utilizarea și importanța care este dată teoremei lui Bayes.

În contextul inferenței statistice, aceste diferențe se manifestă, pe de o parte, cu privire la modul și dacă să se utilizeze informații cunoscute înainte de „a vedea” datele și cu privire la modul de cuantificare a acestor informații și, pe de altă parte, există diferite abordări cu privire la modul în care să interpreteze datele.rezultate.

Un exemplu al modului în care același experiment este văzut de cele două abordări poate fi următoarea problemă școlară.

Într-o urnă care conține bile identice, cu excepția culorii, un procent necunoscut π este negru. Extragerea unei mingi de 100 de ori care este plasată imediat înapoi în urnă, de exemplu, se întâmplă ca mingea de 30 de ori să fie neagră.

În ambele abordări se presupune o distribuție binomială :

Abordarea tipică bazată pe intervalul de încredere frecventist derivat din ideile lui Neyman conduce la o determinare a valorii necunoscute a π un interval de încredere de ex. 95% între 0,21 și 0,39. Încrederea de 95% nu indică faptul că π este inclus cu o probabilitate de 95% între 0,21 și 0,39 (aceasta ar fi o afirmație tipic bayesiană), dar indică faptul că pornind de la ipoteze, metoda utilizată, în 95% din cazuri, face afirmații corecte, ceea ce înseamnă că adevărata valoare va fi cu adevărat în intervalul calculat. Această abordare subliniază faptul că valoarea necunoscută a lui π sau este în intervalul sau nu este, dar nu oferă valori probabilistice pentru a fi înțeleasă. O estimare punctuală a celor mai mici pătrate și a probabilității maxime ar conduce la estimarea valorii π cu estimarea p = 30/100 = 0,3.

Abordarea bayesiană, pe de altă parte, formalizează mai întâi ideea că cineva are despre ceea ce ar putea fi adevărata valoare π, probabil, presupunând o distribuție discretă sau continuă asupra valorilor posibile ale lui π. În cazul particular pe care dorim să îl punem în condiții de ignoranță totală, ar fi considerată o distribuție uniformă discretă sau, având în vedere dimensiunea eșantionului relativ ridicată (100 extracții), o distribuție uniformă în intervalul dintre zero și unul. Alegând distribuția a priori a parametrului de tip π se obține:

Valoarea maximă și, prin urmare, cea mai probabilă, este dată și în acest caz de k / n = 30/100 = 0,3, valoarea abordării frecventiste deja văzute, cu diferența că aceasta este cea mai probabilă valoare a posteriori , vezi ideile noastre în avans și rezultate. Folosind distribuția posterioară se poate afirma că probabilitatea ca parametrul necunoscut π să aibă o valoare cuprinsă între 0,216 și 0,393 este egală cu 0,95, adică 95%, în timp ce valorile cuprinse între 0,21 și 0,39 au probabilitatea de 95,3%.

Rezumând acest exemplu: în abordarea frecventistă, se fac afirmații despre câte ori se spune adevărul folosind tehnica utilizată, în timp ce în abordarea bayesiană o probabilitate de adevăr este atribuită direct unui interval. Această diferență este adesea ignorată la nivel practic, dar din punct de vedere teoretic este substanțială. În plus, abordarea bayesiană este capabilă să utilizeze informații deja în posesia sa, modificând probabilitatea a priori și obținând astfel probabilități a posteriori diferite.

Probleme legate de inferența statistică

Următoarele subiecte constituie o listă, nu neapărat exhaustivă, a subiectelor incluse în inferența statistică:

Exemplu

Având în vedere o urnă cu o compoziție cunoscută de 6 bile albe și 4 bile roșii, folosind regulile de calcul al probabilității putem deduce că dacă extragem aleator o minge din urnă, probabilitatea ca aceasta să fie roșie este 0,4. În schimb, are o problemă de inferență statistică atunci când avem o urnă, nu cunoaștem compoziția, tragem n bile la întâmplare, vom observa culoarea și, din aceasta, încercăm să deducem compoziția urnei.

Bibliografie

Elemente conexe

Alte proiecte

linkuri externe

Controlul autorității Thesaurus BNCF 7894 · GND (DE) 4182963-3