Simpsonparadoxen — när statistik luras: förklaring och exempel
Simpsonparadoxen — hur statistik kan vilseleda. Förklaring, tydliga exempel och praktiska tips för att upptäcka reversal- och Yule‑Simpson‑effekten.
Simpsons paradox är en paradox från statistiken. Den är uppkallad efter Edward H. Simpson, en brittisk statistiker som först beskrev den 1951. Statistikern Karl Pearson beskrev en mycket liknande effekt 1899. - Udny Yules beskrivning är från 1903. Ibland kallas den för Yule-Simpson-effekten. När man tittar på gruppers statistiska poäng kan dessa poäng förändras beroende på om man tittar på grupperna en och en eller om de kombineras till en större grupp. Detta fall förekommer ofta inom samhällsvetenskap och medicinsk statistik. Det kan förvirra människor, om frekvensdata används för att förklara ett orsakssamband. Andra namn på paradoxen är bland annat reversal paradox och amalgamationsparadox.
Vad paradoxen innebär
Simpsons paradox uppstår när en association eller trend som syns i flera grupper försvinner eller vänds när grupperna slås ihop. Med andra ord kan en behandling eller faktor se bättre ut än en annan inom varje delgrupp, men när man summerar alla delgrupper blir bilden den motsatta. Detta beror oftast på att en dold eller underliggande variabel (en konfounder) påverkar både uppdelningen i grupper och resultatet.
Ett enkelt numeriskt exempel
Följande är ett klassiskt (förenklat) exempel från medicinsk statistik med två behandlingar (A och B) för två sorters patienter (små och stora stenar):
- Små stenar: Behandling A 81/87 lyckanden (≈93,1 %), Behandling B 234/270 lyckanden (≈86,7 %). => A bättre än B.
- Stora stenar: Behandling A 192/263 lyckanden (≈73,0 %), Behandling B 55/80 lyckanden (≈68,8 %). => A bättre än B.
- Sammanlagt: Behandling A 273/350 (≈78,0 %), Behandling B 289/350 (≈82,6 %). => B verkar bättre än A när grupperna kombineras.
Trots att A är bättre både för små och stora stenar så blir resultatet omvänt när man slår ihop grupperna, eftersom fördelningen av patienttyper skiljer sig mellan behandlingarna.
Varför det händer
- Konfounderande variabler: En tredje variabel (t.ex. svårighetsgrad, ålder eller typ av avdelning) påverkar både vilken grupp en observation hamnar i och utfallet.
- Olika gruppstorlekar: Om en behandling ges oftare till patienter med svårare problem kan de sammanlagda resultaten bli missvisande.
- Aggregeringseffekter: Marginala (sammanlagda) procenttal summeras utan hänsyn till underliggande variationer, vilket kan dölja eller vända samband som finns inom undergrupper.
Exempel från verkligheten
- Antagningsstatistik (UC Berkeley): Ett ofta citerat historiskt fall där det såg ut som att kvinnor fick lägre antagningsgrad än män i totalen, men när man studerade varje fakultet separat visade sig antagningsgraden vara likvärdig eller till och med bättre för kvinnor. Skillnaden berodde på att kvinnor i större utsträckning sökte till program med hårdare konkurrens.
- Medicinsk behandling: Som i exemplet ovan kan en behandling verka bättre i varje sjukdomskategori men sämre totalt om den ges oftare till svårt sjuka patienter.
Hur man upptäcker och undviker Simpsonparadoxen
- Stratifiera analyser: Dela upp data efter relevanta undergrupper (t.ex. ålder, sjukdomsgrad) innan du drar slutsatser.
- Justera för konfounders: Använd regressionsmodeller eller matchning som inkluderar viktiga bakgrundsvariabler.
- Kausal analys: Använd principer från kausal inferens (t.ex. DAGs — direkt acykliska grafer) för att identifiera vilka variabler som bör kontrolleras för.
- Rapportera båda nivåerna: Visa både betingade (inom-grupp) och marginella (sammanlagda) resultat så att läsaren kan bedöma möjliga effekter av aggregering.
- Randomiserade kontrollerade studier: När det är möjligt minskar randomisering risken för okända konfounders och därmed risken för paradoxala slutsatser.
Praktisk varning
Simpsons paradox visar att statistiska associationer inte automatiskt innebär orsakssamband. Innan man drar slutsatser om att en åtgärd orsakar en förbättring eller försämring måste man tänka igenom vilka andra faktorer som kan påverka resultatet och kontrollera för dem. Tänk alltid efter om en dold variabel kan vara orsaken till ett oväntat eller omvänt samband.
Exempel: Behandling av njursten
Detta är ett exempel från en medicinsk studie där man jämförde hur framgångsrika två behandlingar av njursten är.
Tabellen visar framgångsfrekvens och antal behandlingar för behandlingar av både små och stora njurstenar, där behandling A omfattar alla öppna ingrepp och behandling B är perkutan nefrolitotomi:
| Behandling A | Behandling B | |||
| framgång | misslyckande | framgång | misslyckande | |
| Små stenar | Grupp 1 | Grupp 2 | ||
| antal patienter | 81 | 6 | 234 | 36 |
| 93% | 7% | 87% | 13% | |
| Stora stenar | Grupp 3 | Grupp 4 | ||
| antal patienter | 192 | 71 | 55 | 25 |
| 73% | 27% | 69% | 31% | |
| Båda | Grupp 1+3 | Grupp 2+4 | ||
| antal patienter | 273 | 77 | 289 | 61 |
| 78% | 22% | 83% | 17% | |
Den paradoxala slutsatsen är att behandling A är effektivare när den används på små stenar och även när den används på stora stenar, men att behandling B är effektivare när båda storlekarna behandlas samtidigt. I det här exemplet visste man inte att njurstens storlek påverkade resultatet. Detta kallas en dold variabel (eller lurande variabel) i statistik.
Vilken behandling som anses vara bäst bestäms av en ojämlikhet mellan två kvoter (framgång/total). Omvändningen av ojämlikheten mellan förhållandena, som skapar Simpsons paradox, beror på att två effekter inträffar samtidigt:
- Storleken på de grupper som kombineras när man inte tar hänsyn till den lurande variabeln är mycket olika. Läkare tenderar att ge de svåra fallen (stora stenar) den bättre behandlingen (A) och de mildare fallen (små stenar) den sämre behandlingen (B). Därför domineras totalerna av grupperna tre och två och inte av de två mycket mindre grupperna ett och fyra.
- Den lurande variabeln har en stor inverkan på förhållandena, dvs. att framgångskvoten påverkas starkare av fallets svårighetsgrad än av valet av behandling. Därför klarar sig gruppen patienter med stora stenar som använder behandling A (grupp tre) sämre än gruppen med små stenar, även om de senare använde den sämre behandlingen B (grupp två).
Sök