Inferință statistică

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Inferența statistică (sau statisticile inferențiale ) este procedura prin care caracteristicile unei populații sunt induse prin observarea unei părți a acesteia (numită „ eșantion ”), de obicei selectată prin intermediul unui experiment aleatoriu (aleatoriu). Din punct de vedere filosofic , acestea sunt tehnici matematice pentru cuantificarea procesului de învățare prin experiență .

Vom lua în considerare în principal eșantioane simple de mărime n > 1, care pot fi interpretate ca n realizări independente ale unui experiment de bază, în aceleași condiții. Deoarece este considerat un experiment aleatoriu, implică calculul probabilităților . În inferența statistică există, într-un anumit sens, o inversare a punctului de vedere cu privire la calculul probabilităților. În cadrul acestuia din urmă, cunoscut procesul de generare a datelor experimentale (model probabilistic), suntem capabili să evaluăm probabilitatea diferitelor rezultate posibile ale unui experiment. În statistici, procesul de generare a datelor experimentale nu este pe deplin cunoscut (procesul în cauză este, în cele din urmă, obiectul investigației), iar tehnicile statistice vizează inducerea caracteristicilor acestui proces pe baza observării datelor experimentale generate de aceasta.

Istorie

În istoria statisticii, inferența a cunoscut două mari perioade. Primul a început la sfârșitul secolului al XIX-lea și s-a dezvoltat decisiv în prima jumătate a secolului al XX-lea cu lucrările lui R. Fisher , K. Pearson , Jerzy Neyman , Egon Pearson și Abraham Wald cu ideile fundamentale privind verosimilitatea , ipoteza puterii teste, intervale de încredere și altele.

A doua mare perioadă, încă în desfășurare, a fost posibilă datorită puterii de calcul din ce în ce mai mari a computerelor, disponibilă la prețuri din ce în ce mai accesibile. Acest lucru ne-a permis să ne îndepărtăm de ipoteze care sunt confortabile din punct de vedere matematic, dar nu întotdeauna adecvate realității, punând în practică chiar idei antice , precum cea bayesiană, care găsește aplicații practice doar în prezența puterii de calcul a computerelor. , precum și tehnici de eșantionare a datelor, cum ar fi metoda Monte Carlo , bootstraping , metoda jackknife etc. legat de personalități precum John von Neumann , Stanisław Marcin Ulam , Bradley Efron , Richard von Mises și alții.

Descriere

Două abordări

În domeniul inferenței statistice, se disting două școli de gândire, legate de concepții sau interpretări diferite ale sensului probabilității :

Primul este legat de contribuțiile istorice ale lui R. Fisher , K. Pearson și reprezintă poziția majoritară. Al doilea, în prezent ( 2005 ) încă minoritar, dar în creștere, se bazează pe utilizarea rezultatului teoremei lui Bayes în scopul inferenței statistice.

Există de fapt o a treia abordare, care este totuși o provocare pentru conceptul de inferență, adică subiectivismul statistic susținut de inginerul și matematicianul Bruno De Finetti. În special, De Finetti contestând posibilitatea ontologică că există cazuri repetabile, contestă fiabilitatea statisticilor frecventiste. Emblematic pentru această poziție este următorul pasaj din De Finetti „ Există anumite diferențe între diferite cazuri, de exemplu, pentru loterie, două bile diferite diferă cu siguranță cel puțin pentru faptul că poartă două numere diferite 27 și că, la momentul extracției, ocupă două poziții diferite în urnă. De ce nu sunt luate în considerare aceste condiții? "(așa la pagina 12 din Bruno de Finetti Probabilism. Eseu critic despre teoria probabilității și valoarea științei , Editrice F. Perrella, Napoli 1931)

Se compară inferența frecvențistă și cea bayesiană

Atât abordarea frecventistă, cât și abordarea bayesiană au în comun în primul rând axiomele probabilității , precum și întreaga structură statistico-matematică. Teorema lui Bayes este valabilă și pentru ambele abordări, precum și pentru faptul că în ambele cazuri vorbim de obicei despre statistici parametrice. Ceea ce se schimbă este semnificația care trebuie acordată conceptului de probabilitate, atitudinii în compararea ideii de probabilitate subiectivă și, în consecință, utilizarea și importanța care se acordă teoremei lui Bayes.

În contextul inferenței statistice, aceste diferențe se manifestă, pe de o parte, cu privire la modul și dacă să se utilizeze informații cunoscute înainte de „a vedea” datele și cu privire la modul de cuantificare a acestor informații și, pe de altă parte, există diferite abordări cu privire la modul în care să interpreteze datele.rezultate.

Un exemplu al modului în care același experiment este văzut de cele două abordări poate fi următoarea problemă școlară.

Într-o urnă care conține bile identice, cu excepția culorii, un procent necunoscut π este negru. Extragerea unei mingi de 100 de ori care este plasată imediat înapoi în urnă, de exemplu, se întâmplă ca mingea de 30 de ori să fie neagră.

În ambele abordări se presupune o distribuție binomială :

Abordarea tipic frecventistă bazată pe intervalul de încredere derivat din ideile lui Neyman conduce la stabilirea pentru valoarea necunoscută a π a unui interval de încredere de 95% între 0,21 și 0,39, de exemplu. Încrederea de 95% nu indică faptul că π este inclus cu o probabilitate de 95% între 0,21 și 0,39 (aceasta ar fi o afirmație tipic bayesiană), dar indică faptul că pornind de la ipoteze, metoda utilizată, în 95% din cazuri, face afirmații corecte, ceea ce înseamnă că adevărata valoare va fi cu adevărat în intervalul calculat. Această abordare subliniază faptul că valoarea necunoscută π se află fie în interval, fie nu este, dar nu oferă valori probabilistice acestei înțelegeri . O estimare punctuală a celor mai mici pătrate și a probabilității maxime ar conduce la estimarea valorii π cu estimarea p = 30/100 = 0,3.

Abordarea bayesiană, pe de altă parte, formalizează mai întâi ideea că cineva are despre ceea ce ar putea fi adevărata valoare π, probabil, presupunând o distribuție discretă sau continuă asupra valorilor posibile ale lui π. În cazul particular în care vrem să ne punem într-o condiție de ignoranță totală, ar fi luată în considerare o distribuție discretă uniformă sau, având în vedere dimensiunea relativ mare a eșantionului (100 extracții), o distribuție uniformă continuă în intervalul dintre zero și unul. Alegând a priori distribuția de tip a parametrului π obținem:

Valoarea maximă și, prin urmare, cea mai probabilă, este dată și în acest caz de k / n = 30/100 = 0,3, valoare deja văzută în abordarea frecventistă, cu diferența că aceasta este a posteriori cea mai probabilă valoare, dată fiind ideile noastre a priori și rezultatele experimentului. Folosind distribuția posterioară se poate afirma că probabilitatea ca parametrul necunoscut π să aibă o valoare cuprinsă între 0,216 și 0,393 este egală cu 0,95, adică 95%, în timp ce valorile cuprinse între 0,21 și 0,39 au probabilitatea de 95,3%.

Rezumând acest exemplu: în abordarea frecventistă, se fac afirmații despre câte ori se spune adevărul folosind tehnica utilizată, în timp ce în abordarea bayesiană o probabilitate de adevăr este atribuită direct unui interval. Această diferență este adesea ignorată la nivel practic, dar din punct de vedere teoretic este substanțială. În plus, abordarea bayesiană este capabilă să utilizeze informații deja în posesia sa, modificând probabilitatea a priori și obținând astfel probabilități a posteriori diferite.

Probleme legate de inferența statistică

Următoarele subiecte constituie o listă, nu neapărat exhaustivă, a subiectelor incluse în inferența statistică:

Exemplu

Având în vedere o urnă cu o compoziție cunoscută de 6 bile albe și 4 bile roșii, folosind regulile de calcul al probabilității putem deduce că dacă extragem aleator o minge din urnă, probabilitatea ca aceasta să fie roșie este 0,4. Pe de altă parte, există o problemă de inferență statistică atunci când avem o urnă a cărei compoziție nu o cunoaștem, extragem n bile la întâmplare, îi observăm culoarea și, pornind de la aceasta, încercăm să deducem compoziția urnei .

Bibliografie

Elemente conexe

Alte proiecte

linkuri externe

Controlul autorității Thesaurus BNCF 7894 · GND (DE) 4182963-3