Spearmans rangkorrelationskoefficient (ρ) – definition, formel och exempel
Lär dig Spearmans rangkorrelationskoefficient (ρ) — tydlig definition, formel för beräkning och praktiska exempel för att mäta samband mellan rangordnade data.
Inom matematik och statistik är Spearmans rangkorrelationskoefficient ett mått på korrelation, uppkallad efter dess skapare Charles Spearman. Den skrivs kortfattat som den grekiska bokstaven rho ( ρ {\\displaystyle \rho } ) eller ibland som r s {\displaystyle r_{s}}
. Det är ett tal som visar hur nära två uppsättningar data är kopplade till varandra. Det kan endast användas för uppgifter som kan ordnas, t.ex. högsta till lägsta nivå.
Den allmänna formeln för r s {\displaystyle r_{s}}} är ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\\sum d^{2}}}{n(n^{2}-1)}}}
.
Om du till exempel har uppgifter om hur dyra olika datorer är och uppgifter om hur snabba datorerna är, kan du se om de är kopplade och hur nära de är kopplade med hjälp av r s {\displaystyle r_{s}} .
Vad är Spearmans ρ — förklaring
Spearmans rangkorrelationskoefficient mäter graden av mononton samband mellan två variabler utifrån deras rangordningar. Istället för att jämföra de ursprungliga värdena byter man ut varje observationsvärde mot dess rang (t.ex. 1 för lägst, n för högst) och beräknar sedan samband mellan dessa rangtal. På så sätt blir måttet robust mot outliers och icke-linjära men monotona samband.
Formel och tolkning
Den formel som redan visats ovan,
,
gäller när det inte finns lika värden (inga "ties"). Här är:
- n antal observationer,
- d skillnaden mellan rangplaceringen för varje par observationer (rang(X) − rang(Y)),
- ∑ d² summan av kvadraterna av dessa differenser.
Tolkning:
- ρ = +1 innebär ett perfekt stigande monotoniskt samband (högre X → högre Y i samma ordning).
- ρ = −1 innebär ett perfekt fallande monotoniskt samband (högre X → lägre Y i motsatt ordning).
- ρ nära 0 innebär att det inte finns något tydligt monotoniskt samband.
Beräkning — steg för steg
För att beräkna Spearmans ρ gör du vanligtvis följande:
- Byt ut varje värde i båda variablerna mot deras rang (om lika värden förekommer, tilldela medelranken — se nästa avsnitt).
- För varje observation beräkna differensen d mellan de två rangvärdena.
- Kvadrera varje d och summera dessa: ∑ d².
- Sätt in i formeln ρ = 1 − (6 ∑ d²) / (n(n² − 1)).
Exempel — praktisk uträkning
Antag fem datorer med följande pris- och snabbhetsdata (här använder vi redan rang som exempel):
- Dator A: prisrank 1, snabbhetsrank 3
- Dator B: prisrank 2, snabbhetsrank 1
- Dator C: prisrank 3, snabbhetsrank 4
- Dator D: prisrank 4, snabbhetsrank 5
- Dator E: prisrank 5, snabbhetsrank 2
Beräkna d = (prisrank − snabbhetsrank) och d²:
- A: d = 1 − 3 = −2, d² = 4
- B: d = 2 − 1 = 1, d² = 1
- C: d = 3 − 4 = −1, d² = 1
- D: d = 4 − 5 = −1, d² = 1
- E: d = 5 − 2 = 3, d² = 9
Summan ∑ d² = 4 + 1 + 1 + 1 + 9 = 16. Sätt in i formeln:
ρ = 1 − (6 × 16) / (5 × (5² − 1)) = 1 − 96 / 120 = 1 − 0,8 = 0,2.
Alltså ρ = 0,2, vilket indikerar en svag positiv monoton relation mellan pris och snabbhet i detta exempel.
Hantera lika värden (ties)
Om det finns lika värden (till exempel flera observationer med samma mått) ska man vanligen tilldela medelranker för de lika värdena. Den enkla formen av formeln med ∑ d² gäller strikt när det inte finns ties. När ties förekommer kan man:
- beräkna rangvärden med medelranger och därefter använda Pearsonkorrelation på dessa rangvärden (det vanligaste tillvägagångssättet), eller
- använda korrigeringar i formeln som tar hänsyn till banden (men i praktiken räcker ofta att beräkna korrelationen mellan rangserierna).
Hypotesprövning och konfidensintervall
För att testa om ett observerat ρ skiljer sig signifikant från noll kan man:
- använda exakta test eller permutationstest (särskilt lämpligt för små n),
- eller använda approximativa metoder för stora urval, t.ex. genom att omvandla rho och använda en t-fördelning eller använda Fisher-transformationer (finns olika approximationer beroende på programvara).
För små stickprov rekommenderas ofta exakta test eller permutationstest eftersom approximativa formler kan vara missvisande.
Relation till Pearson och när man använder Spearman
- Spearman mäter graden av monotont samband (även icke-linjärt). Den är beräknad på rangtal och är robust mot extrema värden.
- Pearson mäter linjärt samband mellan de råa variabelvärdena och påverkas mer av outliers och icke-linjäritet.
- Om relationen är monotont men icke-linjär (t.ex. logaritmisk), kan Spearman ge ett högt värde medan Pearson visar ett lägre värde.
För- och nackdelar
- Fördelar: robust mot outliers, få antaganden om fördelning, enkel att förstå och beräkna, bra för ordinaldata.
- Nackdelar: förlorar informationsdetaljer genom rangning (mindre kraftfull än Pearson om sambandet är strikt linjärt och normalfördelat), hantering av ties kan komplicera tolkningen.
Praktiska tips
- Använd Spearmans ρ när data är ordinala eller när du misstänker ett monotont men icke-linjärt samband.
- För små dataset: överväg exakta eller permutationsbaserade test för p‑värden.
- I statistikprogram och kalkylark finns ofta en funktion för Spearmans korrelation (t.ex. CORREL på rangserier eller specifika funktioner för Spearman).
Sammanfattningsvis är Spearmans rangkorrelationskoefficient ett enkelt och användbart verktyg för att mäta monotona samband mellan två variabler, särskilt när data inte uppfyller antaganden för linjär korrelation eller när man vill vara robust mot extrema värden.
Att lösa det
Steg ett
För att räkna ut r s {\displaystyle r_{s}} måste du först rangordna varje data. Vi kommer att använda exemplet från introduktionen om datorer och deras hastighet.
Datorn med det lägsta priset skulle alltså ligga på plats 1. Den som ligger högre än så skulle få plats 2. Sedan går det uppåt tills alla är rangordnade. Du måste göra detta med båda uppsättningarna data.
| Pris ($) | R a n k 1 {\displaystyle Rank_{1}} | Hastighet (GHz) | R a n k 2 {\displaystyle Rank_{2}} | |
| A | 200 | 1 | 1.80 | 2 |
| B | 275 | 2 | 1.60 | 1 |
| C | 300 | 3 | 2.20 | 4 |
| D | 350 | 4 | 2.10 | 3 |
| E | 600 | 5 | 4.00 | 5 |
Steg två
Därefter måste vi ta reda på skillnaden mellan de två leden. Sedan multiplicerar man skillnaden med sig själv, vilket kallas kvadrering. Skillnaden kallas d {\displaystyle d} , och det tal du får när du kvadrerar d {\displaystyle d}
kallas d 2 {\displaystyle d^{2}}}
.
| R a n k 1 {\displaystyle Rank_{1}} | R a n k 2 {\displaystyle Rank_{2}} | d {\displaystyle d} | d 2 {\displaystyle d^{2}} |
| 1 | 2 | -1 | 1 |
| 2 | 1 | 1 | 1 |
| 3 | 4 | -1 | 1 |
| 4 | 3 | 1 | 1 |
| 5 | 5 | 0 | 0 |
Steg tre
Räkna hur mycket data vi har. Dessa uppgifter har rang 1 till 5, så vi har 5 uppgifter. Detta antal kallas n {\displaystyle n} .
Steg fyra
Använd slutligen allt vi har räknat ut hittills i denna formel: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}}{n(n^{2}-1)}}} .
∑ d 2 {\displaystyle \sum d^{2}} betyder att vi tar summan av alla nummer som fanns i kolumnen d 2 {\displaystyle d^{2}}
. Detta beror på att ∑ {\displaystyle \sum }
betyder summa.
Så ∑ d 2 {\displaystyle \sum d^{2}} är 1 + 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1+1}
vilket är 4. Formeln säger att man ska multiplicera det med 6, vilket är 24.
n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} är 5 × ( 25 - 1 ) {\displaystyle 5\ gånger (25-1)}
vilket är 120.
Så för att ta reda på r s {\displaystyle r_{s}} gör vi helt enkelt 1 - 24 120 = 0,8 {\displaystyle 1-{\cfrac {24}{120}}=0,8}
.
Spearmans korrelationskoefficient är därför 0,8 för denna uppsättning uppgifter.
Vad siffrorna betyder
r s {\displaystyle r_{s}} ger alltid ett svar mellan -1 och 1. Siffrorna däremellan är som en skala, där -1 är en mycket stark koppling, 0 är ingen koppling och 1 är också en mycket stark koppling. Skillnaden mellan 1 och -1 är att 1 är en positiv korrelation och -1 är en negativ korrelation. En graf av data med ett r s
{\displaystyle r_{s}}-värde på -1 skulle se ut som den visade grafen, förutom att linjen och punkterna skulle gå från övre vänster till nedre höger.
Till exempel, för de data som vi gjorde ovan, var r s {\displaystyle r_{s}} 0,8. Det betyder alltså att det finns en positiv korrelation. Eftersom den ligger nära 1 betyder det att kopplingen är stark mellan de två uppsättningarna data. Vi kan alltså säga att dessa två uppsättningar av data är kopplade till varandra och att de stiger tillsammans. Om den var -0,8 kan vi säga att de är kopplade och att när den ena går upp, går den andra ner.
Om två tal är samma
När du rangordnar data finns det ibland två eller flera siffror som är lika. När detta händer i r s {\displaystyle r_{s}} tar vi medelvärdet eller genomsnittet av de rangordningar som är lika. Dessa kallas för bundna rangord. För att göra detta rangordnar vi de bundna talen som om de inte var bundna. Sedan adderar vi alla de rangord som de skulle ha och delar det med hur många de är. Låt oss till exempel säga att vi rangordnar hur väl olika personer klarade sig i ett stavningsprov.
| Testresultat | Rang | Rang (med bunden) |
| 4 | 1 | 1 |
| 6 | 2 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {\tfrac {2+3+4}{3}}=3} |
| 6 | 3 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {\tfrac {2+3+4}{3}}=3} |
| 6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {\tfrac {2+3+4}{3}}=3} |
| 8 | 5 | 5 + 6 2 = 5,5 {\displaystyle {\tfrac {\tfrac {5+6}{2}}=5,5} |
| 8 | 6 | 5 + 6 2 = 5,5 {\displaystyle {\tfrac {\tfrac {5+6}{2}}=5,5} |
Dessa nummer används på exakt samma sätt som vanliga rangord.
Relaterade sidor
Frågor och svar
F: Vad är Spearmans rangkorrelationskoefficient?
S: Spearmans rangkorrelationskoefficient är ett korrelationsmått som visar hur nära två uppsättningar data är kopplade till varandra. Den kan endast användas för data som kan sättas i ordning, t.ex. från högst till lägst.
F: Vem skapade Spearmans rangkorrelationskoefficient?
S: Charles Spearman skapade Spearmans rangkorrelationskoefficient.
F: Hur skrivs den allmänna formeln för Spearmans rangkorrelationskoefficient?
S: Den allmänna formeln för Spearmans rangkorrelationskoefficient är ρ = 1 - 6∑d2/n(n2-1).
F: När ska man använda Spearmans rangkorrelationskoefficient?
S: Du bör använda Spearmans rangkorrelationskoefficient när du vill se hur nära två uppsättningar data är kopplade till varandra och om de är kopplade till varandra överhuvudtaget.
F: Vilken typ av data fungerar den med?
S: Den fungerar med alla typer av data som kan sättas i ordning, t.ex. från högst till lägst.
F: Kan du ge ett exempel på hur du skulle kunna använda detta mått?
S: Ett exempel på hur man kan använda detta mått kan vara om man har uppgifter om hur dyra olika datorer är och uppgifter om hur snabba datorerna är, så kan man se om de är kopplade och hur nära de är kopplade med hjälp av r_s.
Sök