Studentens t-fördelning är en sannolikhetsfördelning som utvecklades av William Sealy Gosset 1908. Student är den pseudonym han använde när han publicerade den artikel som beskriver fördelningen.

En normalfördelning beskriver en hel population, medan t-fördelningar beskriver stickprov från en hel population. Följaktligen är t-fördelningen annorlunda för varje stickprovsstorlek, och ju större stickprov, desto mer liknar fördelningen en normalfördelning.

T-fördelningen spelar en roll i många allmänt använda statistiska analyser, bland annat studentens t-test för att bedöma den statistiska betydelsen av skillnaden mellan två urvalsmedelvärden, konstruktionen av konfidensintervall för skillnaden mellan två populationsmedelvärden och i linjär regressionsanalys. Studentens t-fördelning förekommer också i Bayesian-analysen av data från en normalfamilj.

Definition och täthetsfunktion

Studentens t-fördelning är en en-parameterfamilj som styrs av frihetsgraderna v (vanligen betecknat ν eller df). Täthetsfunktionen (pdf) för t med v frihetsgrader kan skrivas (i textform) som:

f(t) = Gamma((v+1)/2) / [sqrt(v*pi) * Gamma(v/2)] * (1 + t^2/v)^(-(v+1)/2),

där Gamma är gammafunktionen. För små v är t-fördelningen mer "tungsvansad" än normalfördelningen; när v → ∞ konvergerar t-fördelningen mot standardnormalfördelningen.

Egenskaper

  • Symmetrisk kring noll, likt normalfördelningen.
  • Tungre svansar för små frihetsgrader — större sannolikhet för extrema observationer än normalfördelningen.
  • Frihetsgraderna bestämmer form: vanligen v = n − 1 för ett stickprov (one-sample) eller v = n1 + n2 − 2 för ett tvåstickprovs t-test med antagande om lika varianser.
  • För stora stickprov blir fördelningen praktiskt taget lika standardnormalen.

Studentens t-test — princip och varianter

Det vanligaste användningsområdet är att pröva hypoteser om ett medelvärde eller skillnader mellan medelvärden.

  • Ett stickprov (one-sample t-test): teststatistikan är t = (x̄ − μ0) / (s / sqrt(n)), där x̄ är urvalsmedelvärdet, μ0 är värdet under nollhypotesen, s är urvalets standardavvikelse och n är stickprovsstorleken. Under antaganden om normalfördelning i populationen följer t statistiken en t-fördelning med v = n − 1 frihetsgrader.
  • Två oberoende stickprov (pooled t-test): om populationernas varians antas vara lika används pooled standardavvikelse och df = n1 + n2 − 2.
  • Welch's t-test: om variansen inte antas lika rekommenderas Welch’s t-test, som använder en annan uppskattning av df (ej heltal i allmänhet) och är mer robust mot olika variansstorlekar.
  • Parat t-test: används vid beroende observationer (t.ex. före- och eftermätningar); analysen omvandlar paret till skillnader och gör ett ettstickprovstest på dessa skillnader.

Konfidensintervall

Ett (1−α)100% konfidensintervall för ett medelvärde ges av

x̄ ± t_{α/2, df} * (s / sqrt(n)),

där t_{α/2, df} är den kritiska t-kvoten från t-fördelningstabellen med df frihetsgrader. För skillnaden mellan två medelvärden används motsvarande t-kvot och standardfel beroende på vald variant (pooled eller Welch).

Användning i regression

I linjär regressionsanalys används t-fördelningen för att testa om en regressionskoefficient skiljer sig signifikant från noll. Teststatistikan är

t = β̂ / SE(β̂),

där β̂ är skattningen av koefficienten och SE(β̂) dess standardfel. Under klassiska antaganden (linjäritet, oberoende, normalt fördelade residualer med konstant varians) följer t-statistikan en t-fördelning med df = n − k, där k är antalet skattade parametrar inklusive intercept.

Antaganden, begränsningar och praktiska råd

  • Antaganden: för de exakta t-testerna krävs normalt fördelade fel/residualer och oberoende observationer. För stora n är t-testet dock relativt robust mot måttlig avvikelse från normalitet tack vare centrala gränsvärdessatsen.
  • När använda t istället för z: använd t när populationsvariansen är okänd och skattas från data. Z-test (normalapproximation) kan användas om n är mycket stort eller om populationsvariansen är känd (sällsynt i praktiken).
  • Robusthet: för mycket sned eller tungsvansad data kan t-test och konfidensintervall ge missvisande resultat; överväg transformeringar, icke-parametriska tester eller bootstrapmetoder vid behov.
  • Welch före pooled: i praktiken rekommenderas ofta Welch’s test framför det pooled t-testet eftersom det fungerar bra även om variansen råkar vara lika och skyddar mot ojämna variansstorlekar.
  • Programvara: kritiska t-värden och p-värden beräknas enkelt i statistiska program (R, Python, SPSS, Stata) och kalkylatorer; manuella tabeller används mindre idag.

Studentens t i Bayesian och robust analys

Studentens t-fördelning används också i Bayesianska modeller, till exempel som modell för residualer i robust regression (t ger mindre känslighet för utliggare än normalfördelningen) eller som marginal för viss conjugate posterior när variansen är osäker. Tack vare sina tungare svansar fångar t-fördelningen bättre osäkra eller extremare observationer jämfört med normalfördelningen.

Sammanfattningsvis är Studentens t-fördelning ett centralt verktyg i inferens när populationsvariansen är okänd och stickprovet är begränsat. Den ger grund för t-test, konfidensintervall och hypotesprövningar i både enkla och regressiva modeller, och den är särskilt användbar eftersom den anpassar sig efter stickprovets storlek genom frihetsgraderna.