Paradoxul lui Simpson

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Un exemplu (preluat din „A Mathematician at the Ballpark: Odds and Probabilities for Baseball Fans (Paperback)” de Ken Ross, Pi Press, 2004. ISBN 0-13-147990-3 . 12-13) al paradoxului Simpson: calcul din bataia medie a 2 jucători de baseball pe parcursul a două sezoane. Dacă jucătorul Justiției are cea mai bună medie de bătăi în ambele sezoane comparativ cu adversarul său Jeter, cine va avea cea mai bună bătălie combinând anii?

În statistici , paradoxul lui Simpson indică o situație în care o relație între două fenomene apare modificată, sau chiar inversată, de datele aflate în posesia din cauza altor fenomene care nu au fost luate în considerare în analiză (variabile ascunse). Se află la baza unor erori frecvente în analizele statistice în științele sociale și medicale , dar nu numai [1] .

Istorie

A fost descris de George Udny Yule , în articolul „Note despre teoria asocierii atributelor în statistici”, publicat în Biometrika în 1903 , și de EH Simpson , cu articolul „Interpretarea interacțiunii în tabelele de contingență”, publicat în Jurnalul Societății Regale de Statistică ( 1951 ).

Definiție formală

Cu toate că

se întâmplă că

unde este

este probabilitatea de condiționată de evenimentul comun Și
este evenimentul complementar al
este evenimentul complementar al [2]

Exemplu

Să presupunem o situație în care procentul șomerilor în rândul absolvenților este jumătate din populația celor care nu au absolvit.

Cu toate acestea, să luăm în considerare și faptul că, din motive istorice, există mult mai puțini absolvenți în rândul generațiilor mai în vârstă și că, din motive legate de piața muncii , rata șomajului în rândul tinerilor este mai mare decât în ​​rândul persoanelor în vârstă.

Pornind de la următoarele două statistici ipotetice:

Muncitorii fără diplomă cu diplomă Total
Tineri 20 80 100
Persoane în vârstă 120 30 150
Total 140 110 250
Rată de șomaj fără diplomă cu diplomă
Tineri 30% 15%
Persoane în vârstă 5% 3,33%

unde avem că în ambele cazuri șomajul este cam dublu în rândul absolvenților, comparativ cu absolvenții de liceu, putem calcula numărul șomerilor:

Şomerii fără diplomă cu diplomă Total
Tineri 6 12 18
Persoane în vârstă 6 1 7
Total 12 13 25

Aceste valori absolute permit acum calcularea ratei șomajului pentru absolvenți și absolvenți fără a lua în considerare vârsta. Primesti:

Procentul șomerilor
fără diplomă 12/140 = 8,6%
cu diplomă 13/110 = 11,8%

Astfel, se dovedește că, printre absolvenți, rata șomajului în loc să fie jumătate este mai mare decât un sfert față de cea dintre absolvenți, exact opusul a ceea ce s-a presupus.

Acest paradox se datorează faptului că rata șomajului este semnificativ mai mare în grupul care are un procent mai mare de absolvenți; neglijarea existenței a două relații fundamentale (cea dintre șomaj și vârstă, precum și cea dintre vârstă și calificarea educațională) duce la concluzii eronate [3] [4] .

Cauze

În timp ce în cazul anterior pregătit la masă contradicția este evidentă, în analize statistice reale se poate întâmpla să nu observăm relațiile implicite existente între variabile și să ne limităm la analiza datelor agregate fără a le încrucișa cu variabilele esențiale; atunci contradicția nu ar fi percepută cel puțin și concluziile ar putea fi trase complet opuse distribuției reale, cu consecințe potențial foarte grave.

În situații mai puțin extreme decât cele din exemplu, aceleași cauze ale paradoxului lui Simpson pot duce la supraestimarea sau subestimarea diferențelor dintre grupuri, fără a inversa însă „semnul” relației.

Datele produse de paradoxul lui Simpson nu sunt în mod clar greșite în sine, ci pur și simplu trebuie citite diferit de cum ar face un cititor superficial sau un analist:

  • printre persoanele cu diplomă sunt mai mulți șomeri decât printre persoanele fără diplomă

Deși greșită este concluzia superficială care folosește concepte cauză-efect, precum

  • deținerea unei diplome este cauza șomajului mai mare

Dorind să folosim concepte de cauză și efect (adesea singurul motiv pentru care analizăm datele), dar având toate datele disponibile, putem spune

  1. Tinerii sunt de șase ori mai predispuși la șomaj decât persoanele în vârstă
  2. dar atât pentru tineri, cât și pentru bătrâni, deținerea unei diplome reduce „riscul de șomaj” la jumătate

Notă

  1. ^ Redacția Airinforma, paradoxul Simpson - AIRInforma , pe informa.airicerca.org . Adus pe 19 august 2021 .
  2. ^ Marco Minozzo, Probability Calculus - Simpson's Paradox ( PDF ), pe economiamanagement.univr.it .
  3. ^ Cicchitelli, The Simpson paradox ( PDF ), pe el.unifi.it , p. Cap. 9 pp. 228-230.
  4. ^ Silvia Turin, Israel și pacienții vaccinați: de aceea datele nu pun sub semnul întrebării eficacitatea Pfizer , în Corriere della Sera , 18 august 2021. URL accesat pe 19 august 2021 .

Bibliografie

(EN) Zalta Edward N. (eds), Paradox Simpson , în Stanford Encyclopedia of Philosophy , Centre for the Study of Language and Information (CSLI), Universitatea Stanford .

Alte proiecte