Standardfel
Standardfelet är standardavvikelsen för en statistiks urvalsfördelning. Termen kan också användas för en uppskattning (god gissning) av denna standardavvikelse från ett urval av hela gruppen.
Genomsnittet för en del av en grupp (ett så kallat urval) är det vanliga sättet att uppskatta genomsnittet för hela gruppen. Det är ofta för svårt eller kostar för mycket pengar att mäta hela gruppen. Men om ett annat urval mäts kommer det att få ett genomsnitt som skiljer sig lite från det första urvalet. Medeltalets standardfel är ett sätt att veta hur nära genomsnittet för urvalet ligger genomsnittet för hela gruppen. Det är ett sätt att veta hur säker man kan vara på genomsnittet från urvalet.
I verkliga mätningar är det verkliga värdet av standardavvikelsen för hela gruppen vanligtvis inte känt. Därför används termen standardfel ofta för att beteckna en nära gissning av det sanna värdet för hela gruppen. Ju fler mätningar det finns i ett urval, desto närmare kommer gissningen att ligga det sanna talet för hela gruppen.
För ett värde som provtas med ett ofördelat normalfördelat fel visar ovanstående diagram andelen prov som skulle ligga mellan 0, 1, 2 och 3 standardavvikelser över och under det faktiska värdet.
Hur man hittar standardfelet för medelvärdet
Ett sätt att hitta genomsnittets standardavvikelse är att ha många stickprov. Först tar man fram medelvärdet för varje prov. Sedan finner man medelvärdet och standardavvikelsen för dessa medelvärden. Standardavvikelsen för alla medelvärden i proven är medelvärdets standardfel. Detta kan vara mycket arbete. Ibland är det för svårt eller kostar för mycket pengar att ha många prover.
Ett annat sätt att hitta genomsnittets standardfel är att använda en ekvation som endast kräver ett urval. Medelvärdets standardavvikelse uppskattas vanligen genom standardavvikelsen för ett urval från hela gruppen (urvalets standardavvikelse) dividerat med kvadratroten av urvalets storlek.
S E x ¯ = s n {\displaystyle SE_{\bar {x}}\\ ={\frac {s}{\sqrt {n}}}}
där
s är urvalets standardavvikelse (dvs. den urvalbaserade uppskattningen av populationens standardavvikelse), och
n är antalet mätningar i provet.
Hur stort måste urvalet vara för att uppskattningen av medelvärdets standardavvikelse ska ligga nära den faktiska standardavvikelsen för hela gruppen? Det bör finnas minst sex mätningar i ett urval. Då kommer medelvärdesstandardavvikelsen för urvalet att ligga inom 5 % av medelvärdesstandardavvikelsen om hela gruppen hade mätts.
Korrigeringar i vissa fall
Det finns en annan ekvation att använda om antalet mätningar utgör 5 % eller mer av hela gruppen:
Det finns särskilda ekvationer som ska användas om ett prov har färre än 20 mätningar.
Ibland kommer ett urval från en plats även om hela gruppen är utspridd. Ibland kan också ett urval göras under en kort tidsperiod när hela gruppen täcker en längre tidsperiod. I detta fall är siffrorna i urvalet inte oberoende. Då används särskilda ekvationer för att försöka korrigera för detta.
Användbarhet
Ett praktiskt resultat: Man kan bli säkrare på ett medelvärde genom att ha fler mätningar i ett prov. Då blir genomsnittets standardavvikelse mindre eftersom standardavvikelsen divideras med ett större antal. Men för att osäkerheten (standardfelet i medelvärdet) i ett medelvärde ska bli hälften så stor måste provstorleken (n) vara fyra gånger större. Detta beror på att standardavvikelsen divideras med kvadratroten av urvalsstorleken. För att göra osäkerheten en tiondel så stor måste urvalsstorleken (n) vara hundra gånger större!
Standardfel är lätta att beräkna och används ofta eftersom:
- Om standardfelet för flera enskilda storheter är känt kan standardfelet för en funktion av storheterna i många fall enkelt beräknas;
- Om sannolikhetsfördelningen för värdet är känd kan den användas för att beräkna en god approximation av ett exakt konfidensintervall.
- Om sannolikhetsfördelningen inte är känd kan andra ekvationer användas för att uppskatta ett konfidensintervall.
- När urvalet blir mycket stort visar principen om den centrala gränssatsen att siffrorna i urvalet är mycket lika siffrorna i hela gruppen (de har en normalfördelning).
Relativt standardfel
Det relativa standardfelet (RSE) är standardfelet dividerat med genomsnittet. Detta tal är mindre än ett. Genom att multiplicera det med 100 % får man fram det i procent av genomsnittet. Detta hjälper till att visa om osäkerheten är viktig eller inte. Tänk till exempel på två undersökningar av hushållens inkomster som båda resulterar i ett genomsnittligt urval på 50 000 dollar. Om den ena undersökningen har ett standardfel på 10 000 dollar och den andra har ett standardfel på 5 000 dollar är de relativa standardfelen 20 % respektive 10 %. Undersökningen med det lägre relativa standardfelet är bättre eftersom den har en mer exakt mätning (osäkerheten är mindre).
Personer som behöver veta medelvärden bestämmer ofta hur liten osäkerheten ska vara innan de bestämmer sig för att använda informationen. Till exempel rapporterar USA:s National Center for Health Statistics inte ett genomsnitt om det relativa standardfelet överstiger 30 %. NCHS kräver också minst 30 observationer för att en skattning ska kunna rapporteras. []
Exempel
Det finns till exempel många rödfiskar i vattnet i Mexikanska golfen. För att ta reda på hur mycket en 42 cm lång rödfisk i genomsnitt väger är det inte möjligt att mäta alla rödfiskar som är 42 cm långa. Istället är det möjligt att mäta några av dem. De fiskar som faktiskt mäts kallas för ett prov. I tabellen visas vikter för två prover av rödfisk, alla 42 cm långa. Medelvikten för det första provet är 0,741 kg. Medelvikten för det andra provet är 0,735 kg, vilket är lite annorlunda än för det första provet. Var och en av dessa medelvärden skiljer sig lite från det medelvärde som skulle fås genom att mäta varje 42 cm lång rödfisk (vilket ändå inte är möjligt).
Osäkerheten i medelvärdet kan användas för att veta hur nära genomsnittet av proverna ligger det genomsnitt som skulle fås genom att mäta hela gruppen. Osäkerheten i medelvärdet uppskattas som standardavvikelsen för provet, dividerat med kvadratroten av antalet prover minus ett. Tabellen visar att osäkerheten i medelvärdena för de två proven ligger mycket nära varandra. Den relativa osäkerheten är också osäkerheten i medelvärdet dividerat med medelvärdet, gånger 100 %. Den relativa osäkerheten i detta exempel är 2,38 % och 2,50 % för de två proven.
Genom att känna till osäkerheten i medelvärdet kan man veta hur nära genomsnittet i stickprovet ligger det genomsnitt som man skulle få om man mätte hela gruppen. Genomsnittet för hela gruppen ligger mellan a) genomsnittet för urvalet plus osäkerheten i medelvärdet och b) genomsnittet för urvalet minus osäkerheten i medelvärdet. I detta exempel förväntas medelvikten för alla 42 cm långa rödfiskar i Mexikanska golfen vara 0,723-0,759 kg baserat på det första provet och 0,717-0,753 kg baserat på det andra provet.
Exempel på en rödfisk (även känd som röd trumma, Sciaenops ocellatus) som används i exemplet.
Frågor och svar
F: Vad är standardfelet?
S: Standardfelet är standardavvikelsen för en statistiks stickprovsfördelning.
F: Kan termen standardfel användas för en uppskattning av standardavvikelsen?
S: Ja, termen standardfel kan användas för en uppskattning (bra gissning) av den standardavvikelse som tagits från ett urval av hela gruppen.
F: Hur uppskattar man genomsnittet för en hel grupp?
S: Genomsnittet för någon del av en grupp (ett så kallat stickprov) är det vanliga sättet att uppskatta genomsnittet för hela gruppen.
F: Varför är det svårt att mäta hela gruppen?
S: Det är ofta för svårt eller för kostsamt att mäta hela gruppen.
F: Vad är standardfelet för medelvärdet, och vad bestämmer det?
S: Standardfelet för medelvärdet är ett sätt att veta hur nära genomsnittet för urvalet ligger genomsnittet för hela gruppen. Det är ett sätt att veta hur säker man kan vara på genomsnittet från urvalet.
F: Är det sanna värdet för standardavvikelsen för medelvärdet vanligtvis känt vid verkliga mätningar?
S: Nej, det sanna värdet för standardavvikelsen för medelvärdet för hela gruppen är vanligtvis inte känt vid verkliga mätningar.
F: Hur påverkar antalet mätningar i ett stickprov noggrannheten i skattningen?
S: Ju fler mätningar det finns i ett urval, desto närmare kommer gissningen att vara det sanna antalet för hela gruppen.