Inom matematik och statistik är Spearmans rangkorrelationskoefficient ett mått på korrelation, uppkallad efter dess skapare Charles Spearman. Den skrivs kortfattat som den grekiska bokstaven rho ( ρ {\\displaystyle \rho }{\displaystyle \rho } ) eller ibland som r s {\displaystyle r_{s}} {\displaystyle r_{s}}. Det är ett tal som visar hur nära två uppsättningar data är kopplade till varandra. Det kan endast användas för uppgifter som kan ordnas, t.ex. högsta till lägsta nivå.

Den allmänna formeln för r s {\displaystyle r_{s}}}{\displaystyle r_{s}} är ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\\sum d^{2}}}{n(n^{2}-1)}}} {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

Om du till exempel har uppgifter om hur dyra olika datorer är och uppgifter om hur snabba datorerna är, kan du se om de är kopplade och hur nära de är kopplade med hjälp av r s {\displaystyle r_{s}} {\displaystyle r_{s}}.

Vad är Spearmans ρ — förklaring

Spearmans rangkorrelationskoefficient mäter graden av mononton samband mellan två variabler utifrån deras rangordningar. Istället för att jämföra de ursprungliga värdena byter man ut varje observationsvärde mot dess rang (t.ex. 1 för lägst, n för högst) och beräknar sedan samband mellan dessa rangtal. På så sätt blir måttet robust mot outliers och icke-linjära men monotona samband.

Formel och tolkning

Den formel som redan visats ovan,

{\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}},

gäller när det inte finns lika värden (inga "ties"). Här är:

  • n antal observationer,
  • d skillnaden mellan rangplaceringen för varje par observationer (rang(X) − rang(Y)),
  • ∑ d² summan av kvadraterna av dessa differenser.

Tolkning:

  • ρ = +1 innebär ett perfekt stigande monotoniskt samband (högre X → högre Y i samma ordning).
  • ρ = −1 innebär ett perfekt fallande monotoniskt samband (högre X → lägre Y i motsatt ordning).
  • ρ nära 0 innebär att det inte finns något tydligt monotoniskt samband.

Beräkning — steg för steg

För att beräkna Spearmans ρ gör du vanligtvis följande:

  1. Byt ut varje värde i båda variablerna mot deras rang (om lika värden förekommer, tilldela medelranken — se nästa avsnitt).
  2. För varje observation beräkna differensen d mellan de två rangvärdena.
  3. Kvadrera varje d och summera dessa: ∑ d².
  4. Sätt in i formeln ρ = 1 − (6 ∑ d²) / (n(n² − 1)).

Exempel — praktisk uträkning

Antag fem datorer med följande pris- och snabbhetsdata (här använder vi redan rang som exempel):

  1. Dator A: prisrank 1, snabbhetsrank 3
  2. Dator B: prisrank 2, snabbhetsrank 1
  3. Dator C: prisrank 3, snabbhetsrank 4
  4. Dator D: prisrank 4, snabbhetsrank 5
  5. Dator E: prisrank 5, snabbhetsrank 2

Beräkna d = (prisrank − snabbhetsrank) och d²:

  • A: d = 1 − 3 = −2, d² = 4
  • B: d = 2 − 1 = 1, d² = 1
  • C: d = 3 − 4 = −1, d² = 1
  • D: d = 4 − 5 = −1, d² = 1
  • E: d = 5 − 2 = 3, d² = 9

Summan ∑ d² = 4 + 1 + 1 + 1 + 9 = 16. Sätt in i formeln:

ρ = 1 − (6 × 16) / (5 × (5² − 1)) = 1 − 96 / 120 = 1 − 0,8 = 0,2.

Alltså ρ = 0,2, vilket indikerar en svag positiv monoton relation mellan pris och snabbhet i detta exempel.

Hantera lika värden (ties)

Om det finns lika värden (till exempel flera observationer med samma mått) ska man vanligen tilldela medelranker för de lika värdena. Den enkla formen av formeln med ∑ d² gäller strikt när det inte finns ties. När ties förekommer kan man:

  • beräkna rangvärden med medelranger och därefter använda Pearsonkorrelation på dessa rangvärden (det vanligaste tillvägagångssättet), eller
  • använda korrigeringar i formeln som tar hänsyn till banden (men i praktiken räcker ofta att beräkna korrelationen mellan rangserierna).

Hypotesprövning och konfidensintervall

För att testa om ett observerat ρ skiljer sig signifikant från noll kan man:

  • använda exakta test eller permutationstest (särskilt lämpligt för små n),
  • eller använda approximativa metoder för stora urval, t.ex. genom att omvandla rho och använda en t-fördelning eller använda Fisher-transformationer (finns olika approximationer beroende på programvara).

För små stickprov rekommenderas ofta exakta test eller permutationstest eftersom approximativa formler kan vara missvisande.

Relation till Pearson och när man använder Spearman

  • Spearman mäter graden av monotont samband (även icke-linjärt). Den är beräknad på rangtal och är robust mot extrema värden.
  • Pearson mäter linjärt samband mellan de råa variabelvärdena och påverkas mer av outliers och icke-linjäritet.
  • Om relationen är monotont men icke-linjär (t.ex. logaritmisk), kan Spearman ge ett högt värde medan Pearson visar ett lägre värde.

För- och nackdelar

  • Fördelar: robust mot outliers, få antaganden om fördelning, enkel att förstå och beräkna, bra för ordinaldata.
  • Nackdelar: förlorar informationsdetaljer genom rangning (mindre kraftfull än Pearson om sambandet är strikt linjärt och normalfördelat), hantering av ties kan komplicera tolkningen.

Praktiska tips

  • Använd Spearmans ρ när data är ordinala eller när du misstänker ett monotont men icke-linjärt samband.
  • För små dataset: överväg exakta eller permutationsbaserade test för p‑värden.
  • I statistikprogram och kalkylark finns ofta en funktion för Spearmans korrelation (t.ex. CORREL på rangserier eller specifika funktioner för Spearman).

Sammanfattningsvis är Spearmans rangkorrelationskoefficient ett enkelt och användbart verktyg för att mäta monotona samband mellan två variabler, särskilt när data inte uppfyller antaganden för linjär korrelation eller när man vill vara robust mot extrema värden.