Statistiska fel och residualer uppstår eftersom mätningar aldrig är exakta.
Det är inte möjligt att göra en exakt mätning, men det är möjligt att säga hur exakt en mätning är. Man kan mäta samma sak om och om igen och samla in alla data tillsammans. På så sätt kan man göra statistik på uppgifterna. Det som menas med fel och residualer är skillnaden mellan det observerade eller uppmätta värdet och det verkliga värdet, som är okänt.
I enklare situationer, där det bara finns en slumpmässig variabel, kan skillnaden mellan statistiska fel och residualer förklaras med hjälp av populationens medelvärde och urvalets medelvärde.
Definitioner
Statistiskt fel (ofta betecknat e_i) är skillnaden mellan ett observerat värde X_i och det sanna, men okända, populationsmedelvärdet μ:
e_i = X_i − μ
Residual (ofta betecknat r_i) är skillnaden mellan samma observerade värde X_i och uppskattningen av medelvärdet, vanligtvis urvalsmedelvärdet X̄:
r_i = X_i − X̄
Alltså är residualen en observerbar uppskattning av det icke-observerbara statistiska felet. Förhållandet mellan dem är
e_i = r_i + (X̄ − μ),
d.v.s. residualen är det statistiska felet centrerat kring urvalsmedelvärdet.
Egenskaper och skillnader
- Observerbarhet: Statistiska fel e_i innehåller det okända μ och kan därför inte mätas direkt. Residualer r_i är observerbara eftersom de använder X̄ som uppskattning.
- Summor: Summan av residualerna i ett slumpmässigt urval är alltid noll: ∑ r_i = 0. Däremot behöver inte ∑ e_i vara noll; istället gäller ∑ e_i = n(X̄ − μ).
- Oberoende: De statistiska felen e_i är oberoende slumpvariabler om individerna valts oberoende från populationen. Residualerna r_i är inte oberoende eftersom villkoret ∑ r_i = 0 binder dem ihop.
- Varians: Om varje X_i har varians σ² gäller Var(e_i) = σ². För residualer i ett enkelt urval gäller
Var(r_i) = σ²(1 − 1/n).
Alltså har residualerna något mindre varians än de sanna felen eftersom de är beroende genom urvalsmedelvärdet.
Exempel
Antag att det finns ett experiment för att mäta längden hos 21-åriga män från ett visst område. Populationens sanna medelvärde är μ = 1,75 m.
- Om en slumpmässigt vald man är 1,80 m lång är det statistiska felet e = 1,80 − 1,75 = 0,05 m (5 cm).
- Om en man är 1,70 m är det statistiska felet e = −0,05 m (−5 cm).
Om vi istället tar ett slumpmässigt urval på n = 5 män med längder (m): 1,72; 1,78; 1,75; 1,81; 1,69 så blir urvalsmedelvärdet
X̄ = (1,72 + 1,78 + 1,75 + 1,81 + 1,69) / 5 = 1,75 m.
I detta exempel råkar X̄ = μ, så för varje man är residualen r_i = X_i − X̄ lika med det statistiska felet e_i = X_i − μ. Om X̄ hade varit t.ex. 1,74 m skulle residualen skilja sig från det sanna felet med konstanten X̄ − μ = −0,01 m.
Praktisk användning
Residualer används ofta i modellkontroll:
- För att bedöma om en modell passar bra: små residualer tyder på god passform.
- För att upptäcka avvikare (outliers) eller systematiska mönster (t.ex. heteroscedasticitet eller icke-linjäritet) genom att plotta residualer mot förklarande variabler eller förutsagda värden.
- För att skatta variansen i populationen används ofta residualernas kvadratsumma med en frihetskorrigering: s² = (1/(n−1)) ∑ r_i², vilket ger en obias estimator för σ² i det enkla medelvärdesfallet.
I regressionssammanhang skiljer man på de sanna slumpfelen (y_i − f(x_i), där f är den sanna modellen) och residualerna (y_i − ŷ_i, där ŷ_i är uppskattningen från regressionsmodellen). Ett viktigt resultat där är att summan av residualerna är noll om modellen innehåller en konstant (intercept). Mer avancerat: Var(r_i) = σ²(1 − h_ii), där h_ii är den så kallade "leverage" för observation i.
Sammanfattningsvis:
- Statistiska fel (e_i) = X_i − μ är de sanna (men i praktiken okända) avvikelserna från populationens sanna värde.
- Residualer (r_i) = X_i − X̄ är observerbara avvikelser från urvalsbaserade uppskattningar och används för modellkontroll och skattning av varians.
- Residualerna har summan noll och är beroende, medan de statistiska felen kan vara oberoende och behöver inte summera till noll.
- Residualernas varians är Vanligtvis något mindre än de sanna felen: Var(r_i) = σ²(1 − 1/n) i enkla urval, och mer generellt Var(r_i) = σ²(1 − h_ii) i regressionsmodeller.