Inom statistik och sannolikhetsteori avser korrelation ett mått på hur två variabler eller två uppsättningar data samvarierar. Korrelation beskriver både riktning (om de rör sig åt samma eller motsatt håll) och styrka (hur väl sambandet kan förutsägas), men säger i sig inget om orsakssamband.
Grundläggande begrepp
- Positiv korrelation: när en variabel ökar tenderar den andra också att öka.
- Negativ korrelation: när en variabel ökar tenderar den andra att minska.
- Ingen korrelation: ingen systematisk samvariation kan observeras.
- Styrka: uttrycks ofta med en koefficient som ligger mellan −1 och 1, där absolutvärdet nära 1 indikerar ett starkt samband.
Vanliga korrelationsmått
- Pearsons korrelationskoefficient (r): mäter linjärt samband och definieras som kovariansen mellan variablerna delat med produkten av deras standardavvikelser. Kräver i praktiken ungefär linjäritet och påverkas av extremvärden.
- Spearmans rangkorrelation (rho): ett icke-parametriskt mått som bygger på rangordningar och fångar monotona samband, robustare mot outliers.
- Kendalls tau: ett annat rangbaserat mått som uppskattar överensstämmelse i rangordningar.
- Andra mått: punktbisär korrelation, phi-koefficient och Cramérs V används för kategoriska variabler.
Visualisering
Ett vanligt sätt att undersöka korrelation visuellt är ett spridningsdiagram. På ett sådant diagram ritas punkter för varje observation; en linje för bästa anpassning kan illustrera riktning och avståndet från linjen visar hur starkt sambandet är. Se exempel på spridningsdiagram.
Tolkning och vanliga fallgropar
- Korrelations≠kausalitet: att två variabler korrelerar innebär inte att den ena orsakar den andra — en tredje variabel (konfounder) kan påverka båda.
- Spurious correlation: slumpmässiga samband eller beroenden som uppstår i stora datamängder utan verklig relation.
- Outliers kan kraftigt påverka vissa korrelationsmått, särskilt Pearsons.
- Ej-linjära samband kan ge låg korrelation trots ett tydligt icke-linjärt samband; rangbaserade mått kan vara lämpligare.
- Tidsseriedata: autokorrelation kan ge missvisande resultat om man inte tar hänsyn till tidsberoende.
Användningsområden
- Utforskande dataanalys inom natur- och samhällsvetenskaper
- Ekonomisk och finansiell analys
- Medicinsk forskning och epidemiologi
- Maskininlärning och prediktiva modeller
Praktiska råd
- Välj korrelationsmått utifrån datas natur (kontinuerlig vs. ordinal/kategorisk) och utvärdera antaganden.
- Visualisera alltid relationer med t.ex. ett spridningsdiagram innan du rapporterar en siffra.
- Undersök möjliga konfounders och kontrollera för outliers och icke-linjäritet.
- Använd lämplig statistisk inferens (t.ex. konfidensintervall eller permutations-/bootstrap-test) för att bedöma betydelsen av en observerad korrelation.
Sammanfattningsvis är korrelation ett värdefullt verktyg för att beskriva samband i data, men kräver försiktig tolkning och kompletterande analyser för att dra tillförlitliga slutsatser om orsak och verkan.
