Simpsons paradox är en paradox från statistiken. Den är uppkallad efter Edward H. Simpson, en brittisk statistiker som först beskrev den 1951. Statistikern Karl Pearson beskrev en mycket liknande effekt 1899. - Udny Yules beskrivning är från 1903. Ibland kallas den för Yule-Simpson-effekten. När man tittar på gruppers statistiska poäng kan dessa poäng förändras beroende på om man tittar på grupperna en och en eller om de kombineras till en större grupp. Detta fall förekommer ofta inom samhällsvetenskap och medicinsk statistik. Det kan förvirra människor, om frekvensdata används för att förklara ett orsakssamband. Andra namn på paradoxen är bland annat reversal paradox och amalgamationsparadox.

Vad paradoxen innebär

Simpsons paradox uppstår när en association eller trend som syns i flera grupper försvinner eller vänds när grupperna slås ihop. Med andra ord kan en behandling eller faktor se bättre ut än en annan inom varje delgrupp, men när man summerar alla delgrupper blir bilden den motsatta. Detta beror oftast på att en dold eller underliggande variabel (en konfounder) påverkar både uppdelningen i grupper och resultatet.

Ett enkelt numeriskt exempel

Följande är ett klassiskt (förenklat) exempel från medicinsk statistik med två behandlingar (A och B) för två sorters patienter (små och stora stenar):

  • Små stenar: Behandling A 81/87 lyckanden (≈93,1 %), Behandling B 234/270 lyckanden (≈86,7 %). => A bättre än B.
  • Stora stenar: Behandling A 192/263 lyckanden (≈73,0 %), Behandling B 55/80 lyckanden (≈68,8 %). => A bättre än B.
  • Sammanlagt: Behandling A 273/350 (≈78,0 %), Behandling B 289/350 (≈82,6 %). => B verkar bättre än A när grupperna kombineras.

Trots att A är bättre både för små och stora stenar så blir resultatet omvänt när man slår ihop grupperna, eftersom fördelningen av patienttyper skiljer sig mellan behandlingarna.

Varför det händer

  • Konfounderande variabler: En tredje variabel (t.ex. svårighetsgrad, ålder eller typ av avdelning) påverkar både vilken grupp en observation hamnar i och utfallet.
  • Olika gruppstorlekar: Om en behandling ges oftare till patienter med svårare problem kan de sammanlagda resultaten bli missvisande.
  • Aggregeringseffekter: Marginala (sammanlagda) procenttal summeras utan hänsyn till underliggande variationer, vilket kan dölja eller vända samband som finns inom undergrupper.

Exempel från verkligheten

  • Antagningsstatistik (UC Berkeley): Ett ofta citerat historiskt fall där det såg ut som att kvinnor fick lägre antagningsgrad än män i totalen, men när man studerade varje fakultet separat visade sig antagningsgraden vara likvärdig eller till och med bättre för kvinnor. Skillnaden berodde på att kvinnor i större utsträckning sökte till program med hårdare konkurrens.
  • Medicinsk behandling: Som i exemplet ovan kan en behandling verka bättre i varje sjukdomskategori men sämre totalt om den ges oftare till svårt sjuka patienter.

Hur man upptäcker och undviker Simpsonparadoxen

  • Stratifiera analyser: Dela upp data efter relevanta undergrupper (t.ex. ålder, sjukdomsgrad) innan du drar slutsatser.
  • Justera för konfounders: Använd regressionsmodeller eller matchning som inkluderar viktiga bakgrundsvariabler.
  • Kausal analys: Använd principer från kausal inferens (t.ex. DAGs — direkt acykliska grafer) för att identifiera vilka variabler som bör kontrolleras för.
  • Rapportera båda nivåerna: Visa både betingade (inom-grupp) och marginella (sammanlagda) resultat så att läsaren kan bedöma möjliga effekter av aggregering.
  • Randomiserade kontrollerade studier: När det är möjligt minskar randomisering risken för okända konfounders och därmed risken för paradoxala slutsatser.

Praktisk varning

Simpsons paradox visar att statistiska associationer inte automatiskt innebär orsakssamband. Innan man drar slutsatser om att en åtgärd orsakar en förbättring eller försämring måste man tänka igenom vilka andra faktorer som kan påverka resultatet och kontrollera för dem. Tänk alltid efter om en dold variabel kan vara orsaken till ett oväntat eller omvänt samband.