Studentens t-fördelning: definition, t-test, konfidensintervall och regression
Studentens t-fördelning: förklaring, t-test, konfidensintervall och regression — praktisk guide för stickprov, tolkning och tillämpning i statistik.
Studentens t-fördelning är en sannolikhetsfördelning som utvecklades av William Sealy Gosset 1908. Student är den pseudonym han använde när han publicerade den artikel som beskriver fördelningen.
En normalfördelning beskriver en hel population, medan t-fördelningar beskriver stickprov från en hel population. Följaktligen är t-fördelningen annorlunda för varje stickprovsstorlek, och ju större stickprov, desto mer liknar fördelningen en normalfördelning.
T-fördelningen spelar en roll i många allmänt använda statistiska analyser, bland annat studentens t-test för att bedöma den statistiska betydelsen av skillnaden mellan två urvalsmedelvärden, konstruktionen av konfidensintervall för skillnaden mellan två populationsmedelvärden och i linjär regressionsanalys. Studentens t-fördelning förekommer också i Bayesian-analysen av data från en normalfamilj.
Definition och täthetsfunktion
Studentens t-fördelning är en en-parameterfamilj som styrs av frihetsgraderna v (vanligen betecknat ν eller df). Täthetsfunktionen (pdf) för t med v frihetsgrader kan skrivas (i textform) som:
f(t) = Gamma((v+1)/2) / [sqrt(v*pi) * Gamma(v/2)] * (1 + t^2/v)^(-(v+1)/2),
där Gamma är gammafunktionen. För små v är t-fördelningen mer "tungsvansad" än normalfördelningen; när v → ∞ konvergerar t-fördelningen mot standardnormalfördelningen.
Egenskaper
- Symmetrisk kring noll, likt normalfördelningen.
- Tungre svansar för små frihetsgrader — större sannolikhet för extrema observationer än normalfördelningen.
- Frihetsgraderna bestämmer form: vanligen v = n − 1 för ett stickprov (one-sample) eller v = n1 + n2 − 2 för ett tvåstickprovs t-test med antagande om lika varianser.
- För stora stickprov blir fördelningen praktiskt taget lika standardnormalen.
Studentens t-test — princip och varianter
Det vanligaste användningsområdet är att pröva hypoteser om ett medelvärde eller skillnader mellan medelvärden.
- Ett stickprov (one-sample t-test): teststatistikan är t = (x̄ − μ0) / (s / sqrt(n)), där x̄ är urvalsmedelvärdet, μ0 är värdet under nollhypotesen, s är urvalets standardavvikelse och n är stickprovsstorleken. Under antaganden om normalfördelning i populationen följer t statistiken en t-fördelning med v = n − 1 frihetsgrader.
- Två oberoende stickprov (pooled t-test): om populationernas varians antas vara lika används pooled standardavvikelse och df = n1 + n2 − 2.
- Welch's t-test: om variansen inte antas lika rekommenderas Welch’s t-test, som använder en annan uppskattning av df (ej heltal i allmänhet) och är mer robust mot olika variansstorlekar.
- Parat t-test: används vid beroende observationer (t.ex. före- och eftermätningar); analysen omvandlar paret till skillnader och gör ett ettstickprovstest på dessa skillnader.
Konfidensintervall
Ett (1−α)100% konfidensintervall för ett medelvärde ges av
x̄ ± t_{α/2, df} * (s / sqrt(n)),
där t_{α/2, df} är den kritiska t-kvoten från t-fördelningstabellen med df frihetsgrader. För skillnaden mellan två medelvärden används motsvarande t-kvot och standardfel beroende på vald variant (pooled eller Welch).
Användning i regression
I linjär regressionsanalys används t-fördelningen för att testa om en regressionskoefficient skiljer sig signifikant från noll. Teststatistikan är
t = β̂ / SE(β̂),
där β̂ är skattningen av koefficienten och SE(β̂) dess standardfel. Under klassiska antaganden (linjäritet, oberoende, normalt fördelade residualer med konstant varians) följer t-statistikan en t-fördelning med df = n − k, där k är antalet skattade parametrar inklusive intercept.
Antaganden, begränsningar och praktiska råd
- Antaganden: för de exakta t-testerna krävs normalt fördelade fel/residualer och oberoende observationer. För stora n är t-testet dock relativt robust mot måttlig avvikelse från normalitet tack vare centrala gränsvärdessatsen.
- När använda t istället för z: använd t när populationsvariansen är okänd och skattas från data. Z-test (normalapproximation) kan användas om n är mycket stort eller om populationsvariansen är känd (sällsynt i praktiken).
- Robusthet: för mycket sned eller tungsvansad data kan t-test och konfidensintervall ge missvisande resultat; överväg transformeringar, icke-parametriska tester eller bootstrapmetoder vid behov.
- Welch före pooled: i praktiken rekommenderas ofta Welch’s test framför det pooled t-testet eftersom det fungerar bra även om variansen råkar vara lika och skyddar mot ojämna variansstorlekar.
- Programvara: kritiska t-värden och p-värden beräknas enkelt i statistiska program (R, Python, SPSS, Stata) och kalkylatorer; manuella tabeller används mindre idag.
Studentens t i Bayesian och robust analys
Studentens t-fördelning används också i Bayesianska modeller, till exempel som modell för residualer i robust regression (t ger mindre känslighet för utliggare än normalfördelningen) eller som marginal för viss conjugate posterior när variansen är osäker. Tack vare sina tungare svansar fångar t-fördelningen bättre osäkra eller extremare observationer jämfört med normalfördelningen.
Sammanfattningsvis är Studentens t-fördelning ett centralt verktyg i inferens när populationsvariansen är okänd och stickprovet är begränsat. Den ger grund för t-test, konfidensintervall och hypotesprövningar i både enkla och regressiva modeller, och den är särskilt användbar eftersom den anpassar sig efter stickprovets storlek genom frihetsgraderna.
Historia
Gosset arbetade på ett bryggeri och var intresserad av problem med små prover, till exempel kornets kemiska egenskaper. I de problem som han analyserade kunde provstorleken vara så liten som tre. På grund av den lilla provstorleken är det inte möjligt att uppskatta standardavvikelsen. I många fall som Gosset stötte på var sannolikhetsfördelningen för proverna inte heller känd.
En version av pseudonymen är att Gossets arbetsgivare föredrog att personalen använde pseudonymer (istället för sina riktiga namn) när de publicerade vetenskapliga artiklar, så han använde namnet "Student" för att dölja sin identitet. En annan version är att bryggeriet inte ville att deras konkurrenter skulle veta att de använde t-testet för att testa råvarans kvalitet.
Egenskaper
Om vi tar ett urval av n observationer från en normalfördelning kan t-fördelningen med ν = n-1 frihetsgrader definieras som fördelningen av var urvalets medelvärde i förhållande till det sanna medelvärdet
, dividerad med urvalets standardavvikelse
över normaliseringstermen
(dvs.
). På detta sätt kan t-fördelningen användas för att uppskatta hur sannolikt det är att det sanna medelvärdet ligger inom ett visst intervall.
T-fördelningen är symmetrisk och klockformad, precis som normalfördelningen, men har större svansar, vilket innebär att den är mer benägen att producera värden som ligger långt från medelvärdet. Detta gör den användbar för att förstå det statistiska beteendet hos vissa typer av förhållanden av slumpmässiga kvantiteter, där variationen i nämnaren förstärks och kan ge avvikande värden när kvotens nämnare hamnar nära noll. Studentens t-fördelning är ett specialfall av den generaliserade hyperboliska fördelningen.
Relaterade sidor
- F-fördelning
Frågor och svar
F: Vad är studentens t-fördelning?
S: Student's t-fördelning är en sannolikhetsfördelning som utvecklades av William Sealy Gosset 1908. Den beskriver stickprov från en hel population, och ju större stickprovsstorlek desto mer liknar den en normalfördelning.
F: Vem utvecklade studentens t-fördelning?
S: William Sealy Gosset utvecklade Student's t-fördelning 1908. Han använde pseudonymen "Student" när han publicerade artikeln där han beskrev den.
F: Vilka användningsområden finns för Student's t-fördelning?
S: Studentens t-fördelning spelar en roll i många allmänt använda statistiska analyser, bland annat Studentens t-test för att bedöma den statistiska betydelsen av skillnader mellan två urvalsmedelvärden, konstruera konfidensintervall för skillnader mellan två populationsmedelvärden och linjär regressionsanalys. Den förekommer också i Bayesiansk analys av data från en normalfamilj.
F: Hur påverkar urvalsstorleken formen på en t-fördelning?
Svar: Ju större urvalsstorlek, desto mer liknar den en normalfördelning. För varje olika provstorlek finns det en unik t-fördelning som beskriver den.
F: Finns det något samband mellan studentens T-fördelning och normalfördelningen?
S: Ja - medan normalfördelningar beskriver hela populationer beskriver studentens T-fördelning stickprov som tagits från dessa populationer; som sådana har de likheter men skiljer sig åt beroende på deras respektive storlekar. Som nämnts ovan tenderar större urval att se mer ut som normalfördelningar än vad mindre urval gör.
F: Finns det något annat namn för denna typ av fördelning?
S: Nej - denna typ av fördelning är känd som "Student's T Distribution", uppkallad efter dess utvecklare William Sealy Gosset som använde pseudonymen "Student" när han publicerade sin artikel om den.
Sök