Paradoxul lui Simpson
În statistici , paradoxul lui Simpson indică o situație în care o relație între două fenomene apare modificată, sau chiar inversată, de datele aflate în posesia din cauza altor fenomene care nu au fost luate în considerare în analiză (variabile ascunse). Se află la baza unor erori frecvente în analizele statistice în științele sociale și medicale , dar nu numai [1] .
Istorie
A fost descris de George Udny Yule , în articolul „Note despre teoria asocierii atributelor în statistici”, publicat în Biometrika în 1903 , și de EH Simpson , cu articolul „Interpretarea interacțiunii în tabelele de contingență”, publicat în Jurnalul Societății Regale de Statistică ( 1951 ).
Definiție formală
Cu toate că
se întâmplă că
unde este
- este probabilitatea de condiționată de evenimentul comun Și
- este evenimentul complementar al
- este evenimentul complementar al [2]
Exemplu
Să presupunem o situație în care procentul șomerilor în rândul absolvenților este jumătate din populația celor care nu au absolvit.
Cu toate acestea, să luăm în considerare și faptul că, din motive istorice, există mult mai puțini absolvenți în rândul generațiilor mai în vârstă și că, din motive legate de piața muncii , rata șomajului în rândul tinerilor este mai mare decât în rândul persoanelor în vârstă.
Pornind de la următoarele două statistici ipotetice:
Muncitorii | fără diplomă | cu diplomă | Total |
---|---|---|---|
Tineri | 20 | 80 | 100 |
Persoane în vârstă | 120 | 30 | 150 |
Total | 140 | 110 | 250 |
Rată de șomaj | fără diplomă | cu diplomă |
---|---|---|
Tineri | 30% | 15% |
Persoane în vârstă | 5% | 3,33% |
unde avem că în ambele cazuri șomajul este cam dublu în rândul absolvenților, comparativ cu absolvenții de liceu, putem calcula numărul șomerilor:
Şomerii | fără diplomă | cu diplomă | Total |
---|---|---|---|
Tineri | 6 | 12 | 18 |
Persoane în vârstă | 6 | 1 | 7 |
Total | 12 | 13 | 25 |
Aceste valori absolute permit acum calcularea ratei șomajului pentru absolvenți și absolvenți fără a lua în considerare vârsta. Primesti:
Procentul șomerilor | |
---|---|
fără diplomă | 12/140 = 8,6% |
cu diplomă | 13/110 = 11,8% |
Astfel, se dovedește că, printre absolvenți, rata șomajului în loc să fie jumătate este mai mare decât un sfert față de cea dintre absolvenți, exact opusul a ceea ce s-a presupus.
Acest paradox se datorează faptului că rata șomajului este semnificativ mai mare în grupul care are un procent mai mare de absolvenți; neglijarea existenței a două relații fundamentale (cea dintre șomaj și vârstă, precum și cea dintre vârstă și calificarea educațională) duce la concluzii eronate [3] [4] .
Cauze
În timp ce în cazul anterior pregătit la masă contradicția este evidentă, în analize statistice reale se poate întâmpla să nu observăm relațiile implicite existente între variabile și să ne limităm la analiza datelor agregate fără a le încrucișa cu variabilele esențiale; atunci contradicția nu ar fi percepută cel puțin și concluziile ar putea fi trase complet opuse distribuției reale, cu consecințe potențial foarte grave.
În situații mai puțin extreme decât cele din exemplu, aceleași cauze ale paradoxului lui Simpson pot duce la supraestimarea sau subestimarea diferențelor dintre grupuri, fără a inversa însă „semnul” relației.
Datele produse de paradoxul lui Simpson nu sunt în mod clar greșite în sine, ci pur și simplu trebuie citite diferit de cum ar face un cititor superficial sau un analist:
- printre persoanele cu diplomă sunt mai mulți șomeri decât printre persoanele fără diplomă
Deși greșită este concluzia superficială care folosește concepte cauză-efect, precum
- deținerea unei diplome este cauza șomajului mai mare
Dorind să folosim concepte de cauză și efect (adesea singurul motiv pentru care analizăm datele), dar având toate datele disponibile, putem spune
- Tinerii sunt de șase ori mai predispuși la șomaj decât persoanele în vârstă
- dar atât pentru tineri, cât și pentru bătrâni, deținerea unei diplome reduce „riscul de șomaj” la jumătate
Notă
- ^ Redacția Airinforma, paradoxul Simpson - AIRInforma , pe informa.airicerca.org . Adus pe 19 august 2021 .
- ^ Marco Minozzo, Probability Calculus - Simpson's Paradox ( PDF ), pe economiamanagement.univr.it .
- ^ Cicchitelli, The Simpson paradox ( PDF ), pe el.unifi.it , p. Cap. 9 pp. 228-230.
- ^ Silvia Turin, Israel și pacienții vaccinați: de aceea datele nu pun sub semnul întrebării eficacitatea Pfizer , în Corriere della Sera , 18 august 2021. URL accesat pe 19 august 2021 .
Bibliografie
(EN) Zalta Edward N. (eds), Paradox Simpson , în Stanford Encyclopedia of Philosophy , Centre for the Study of Language and Information (CSLI), Universitatea Stanford .
Alte proiecte
- Wikimedia Commons conține imagini sau alte fișiere despre Paradoxul lui Simpson