Spearmans rangkorrelation

Författare: Leandro Alegsa

17-05-2021 19:28

Inom matematik och statistik är Spearmans rangkorrelationskoefficient ett mått på korrelation, uppkallad efter dess skapare Charles Spearman. Den skrivs kortfattat som den grekiska bokstaven rho ( ρ {\\displaystyle \rho } $\rho$ ) eller ibland som r s {\displaystyle r_{s}} $r_{s}$ . Det är ett tal som visar hur nära två uppsättningar data är kopplade till varandra. Det kan endast användas för uppgifter som kan ordnas, t.ex. högsta till lägsta nivå.

Den allmänna formeln för r s {\displaystyle r_{s}}} $r_{s}$ är ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\\sum d^{2}}}{n(n^{2}-1)}}} $\rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}$ .

Om du till exempel har uppgifter om hur dyra olika datorer är och uppgifter om hur snabba datorerna är, kan du se om de är kopplade och hur nära de är kopplade med hjälp av r s {\displaystyle r_{s}} $r_{s}$ .

Att lösa det

Steg ett

För att räkna ut r s {\displaystyle r_{s}} $r_{s}$ måste du först rangordna varje data. Vi kommer att använda exemplet från introduktionen om datorer och deras hastighet.

Datorn med det lägsta priset skulle alltså ligga på plats 1. Den som ligger högre än så skulle få plats 2. Sedan går det uppåt tills alla är rangordnade. Du måste göra detta med båda uppsättningarna data.

PC	Pris ($)	R a n k 1 {\displaystyle Rank_{1}} $Rank_{1}$	Hastighet (GHz)	R a n k 2 {\displaystyle Rank_{2}} $Rank_{2}$
A	200	1	1.80	2
B	275	2	1.60	1
C	300	3	2.20	4
D	350	4	2.10	3
E	600	5	4.00	5

Steg två

Därefter måste vi ta reda på skillnaden mellan de två leden. Sedan multiplicerar man skillnaden med sig själv, vilket kallas kvadrering. Skillnaden kallas d {\displaystyle d} $d$ , och det tal du får när du kvadrerar d {\displaystyle d} $d$ kallas d 2 {\displaystyle d^{2}}} $d^{2}$ .

R a n k 1 {\displaystyle Rank_{1}} $Rank_{1}$	R a n k 2 {\displaystyle Rank_{2}} $Rank_{2}$	d {\displaystyle d} $d$	d 2 {\displaystyle d^{2}} $d^{2}$
1	2	-1	1
2	1	1	1
3	4	-1	1
4	3	1	1
5	5	0	0

Steg tre

Räkna hur mycket data vi har. Dessa uppgifter har rang 1 till 5, så vi har 5 uppgifter. Detta antal kallas n {\displaystyle n} .

Steg fyra

Använd slutligen allt vi har räknat ut hittills i denna formel: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}}{n(n^{2}-1)}}} $r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}$ .

∑ d 2 {\displaystyle \sum d^{2}} $\sum d^{2}$ betyder att vi tar summan av alla nummer som fanns i kolumnen d 2 {\displaystyle d^{2}} $d^{2}$ . Detta beror på att ∑ {\displaystyle \sum } $\sum$ betyder summa.

Så ∑ d 2 {\displaystyle \sum d^{2}} $\sum d^{2}$ är 1 + 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1+1} $1+1+1+1$ vilket är 4. Formeln säger att man ska multiplicera det med 6, vilket är 24.

n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} $n(n^{2}-1)$ är 5 × ( 25 - 1 ) {\displaystyle 5\ gånger (25-1)} $5\times (25-1)$ vilket är 120.

Så för att ta reda på r s {\displaystyle r_{s}} $r_{s}$ gör vi helt enkelt 1 - 24 120 = 0,8 {\displaystyle 1-{\cfrac {24}{120}}=0,8} $1-{\cfrac {24}{120}}=0.8$ .

Spearmans korrelationskoefficient är därför 0,8 för denna uppsättning uppgifter.

Vad siffrorna betyder

r s {\displaystyle r_{s}} $r_{s}$ ger alltid ett svar mellan -1 och 1. Siffrorna däremellan är som en skala, där -1 är en mycket stark koppling, 0 är ingen koppling och 1 är också en mycket stark koppling. Skillnaden mellan 1 och -1 är att 1 är en positiv korrelation och -1 är en negativ korrelation. En graf av data med ett r s $r_{s}$ {\displaystyle r_{s}}-värde på -1 skulle se ut som den visade grafen, förutom att linjen och punkterna skulle gå från övre vänster till nedre höger.

Till exempel, för de data som vi gjorde ovan, var r s {\displaystyle r_{s}} $r_{s}$ 0,8. Det betyder alltså att det finns en positiv korrelation. Eftersom den ligger nära 1 betyder det att kopplingen är stark mellan de två uppsättningarna data. Vi kan alltså säga att dessa två uppsättningar av data är kopplade till varandra och att de stiger tillsammans. Om den var -0,8 kan vi säga att de är kopplade och att när den ena går upp, går den andra ner.

Detta spridningsdiagram har en positiv korrelation. Värdet r s {\displaystyle r_{s}}} $r_{s}$ skulle vara nära 1 eller 0,9. Den röda linjen är en linje med bästa anpassning.

Om två tal är samma

När du rangordnar data finns det ibland två eller flera siffror som är lika. När detta händer i r s {\displaystyle r_{s}} $r_{s}$ tar vi medelvärdet eller genomsnittet av de rangordningar som är lika. Dessa kallas för bundna rangord. För att göra detta rangordnar vi de bundna talen som om de inte var bundna. Sedan adderar vi alla de rangord som de skulle ha och delar det med hur många de är. Låt oss till exempel säga att vi rangordnar hur väl olika personer klarade sig i ett stavningsprov.

Testresultat	Rang	Rang (med bunden)
4	1	1
6	2	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {\tfrac {2+3+4}{3}}=3} ${\tfrac {2+3+4}{3}}=3$
6	3	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {\tfrac {2+3+4}{3}}=3} ${\tfrac {2+3+4}{3}}=3$
6	4	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {\tfrac {2+3+4}{3}}=3} ${\tfrac {2+3+4}{3}}=3$
8	5	5 + 6 2 = 5,5 {\displaystyle {\tfrac {\tfrac {5+6}{2}}=5,5} ${\tfrac {5+6}{2}}=5.5$
8	6	5 + 6 2 = 5,5 {\displaystyle {\tfrac {\tfrac {5+6}{2}}=5,5} ${\tfrac {5+6}{2}}=5.5$

Dessa nummer används på exakt samma sätt som vanliga rangord.

Relaterade sidor

Korrelation

Frågor och svar

F: Vad är Spearmans rangkorrelationskoefficient?

S: Spearmans rangkorrelationskoefficient är ett korrelationsmått som visar hur nära två uppsättningar data är kopplade till varandra. Den kan endast användas för data som kan sättas i ordning, t.ex. från högst till lägst.

F: Vem skapade Spearmans rangkorrelationskoefficient?

S: Charles Spearman skapade Spearmans rangkorrelationskoefficient.

F: Hur skrivs den allmänna formeln för Spearmans rangkorrelationskoefficient?

S: Den allmänna formeln för Spearmans rangkorrelationskoefficient är ρ = 1 - 6∑d2/n(n2-1).

F: När ska man använda Spearmans rangkorrelationskoefficient?

S: Du bör använda Spearmans rangkorrelationskoefficient när du vill se hur nära två uppsättningar data är kopplade till varandra och om de är kopplade till varandra överhuvudtaget.

F: Vilken typ av data fungerar den med?

S: Den fungerar med alla typer av data som kan sättas i ordning, t.ex. från högst till lägst.

F: Kan du ge ett exempel på hur du skulle kunna använda detta mått?

S: Ett exempel på hur man kan använda detta mått kan vara om man har uppgifter om hur dyra olika datorer är och uppgifter om hur snabba datorerna är, så kan man se om de är kopplade och hur nära de är kopplade med hjälp av r_s.

Sök