Centrala gränsvärdessatsen (CLT) – definition, princip och exempel
Lär dig centrala gränsvärdessatsen (CLT): definition, principer och varför summor blir normalfördelade — med tydliga exempel, bevisidéer och viktiga generaliseringar.
Inom sannolikhetsteori och statistik är de centrala gränssatserna, förkortat CLT, teorem om gränsbeteendena för aggregerade sannolikhetsfördelningar. De säger att givet ett stort antal oberoende slumpvariabler kommer deras summa att följa en stabil fördelning. Om variansen hos slumpvariablerna är ändlig kommer en gaussisk fördelning att uppstå. Detta är en av anledningarna till att denna fördelning också kallas normalfördelning.
Den mest kända och viktigaste av dessa är den s.k. centrala gränssatsen. Den handlar om ett stort antal slumpmässiga variabler med samma fördelning, var och en med en identisk ändlig varians och förväntat värde.
Om är n identiska och oberoende distribuerade slumpvariabler med medelvärde
och standardavvikelse
så är fördelningen av deras medelvärde,
när n blir stor, är ungefär normal med medelvärdet
och standardavvikelsen
. Dessutom är fördelningen av deras summa,
, när n blir stor, är också ungefär normal, med medelvärde
och standardavvikelse
.
Det finns olika generaliseringar av denna sats. Vissa av dessa generaliseringar kräver inte längre att alla slumpvariabler har samma fördelning. I dessa generaliseringar säkerställer en annan förutsättning att ingen enskild slumpvariabel har ett större inflytande på resultatet än de andra. Exempel på detta är Lindeberg- och Lyapunovvillkoren.
Satsens namn är baserat på en artikel som George Pólya skrev 1920, About the Central Limit Theorem in Probability Theory and the Moment problem.
Formell standardiserad version
En vanlig form av den centrala gränssatsen säger: om X1, X2, ..., Xn är oberoende och identiskt fördelade (i.i.d.) slumpvariabler med förväntat värde μ och varians σ2 < ∞, så konvergerar den standardiserade summan i fördelning till standardnormalfördelningen:
- ((Σ_{i=1}^n Xi) - nμ) / (σ √n) →_d N(0,1)
Det innebär att för stora n approximeras sannolikheter om summan eller medelvärdet med motsvarande sannolikheter under en normalfördelning.
Intuition och varför det gäller
Intuitivt "utjämnar" summan av många oberoende slumpbetingelser ut extremt stora avvikelser, och bidragen från varje variabel samlas till ett nästan symmetriskt klockformat. Formella bevis använder ofta karakteristiska funktioner (Fourier-transformer av fördelningar) eller momentgenererande funktioner och visar att produkt av dessa funktioner närmar sig karakteristiska funktionen för en normalfördelning. En annan vanlig metod bygger på expansionsmetoder (Taylorutveckling) och slutar med centrala gränsvärdet genom användning av kontinuitetssatsen för fördelningsfunktioner.
Varianter och villkor
- De Moivre–Laplace är ett klassiskt specialfall som säger att binomialfördelningen Bin(n,p) närmar sig normalfördelningen för stora n.
- Lindebergs villkor (allmänt): gäller för oberoende men icke-identiskt fördelade variabler. Lindebergvillkoret kräver att inga enskilda variabler ger dominerande bidrag — formellt måste för alla ε > 0: (1/s_n^2) Σ E[(Xi-μi)^2 1_{|Xi-μi|>ε s_n}] → 0 då n→∞, där s_n^2 = Σ Var(Xi).
- Lyapunovs villkor: om det finns δ > 0 sådant att (1/s_n^{2+δ}) Σ E|Xi-μi|^{2+δ} → 0, så håller CLT. Lyapunov är ett starkare (men enklare att kontrollera) villkor än Lindeberg.
- Stable laws: om variansen är oändlig (t.ex. Cauchy-fördelning eller andra tunga svansar) leder inte CLT till normalfördelning utan till andra så kallade stabila fördelningar.
Praktiska konsekvenser och användning
Den centrala gränssatsen är grunden för många statistiska metoder:
- Konfidensintervall och hypotestest för medelvärden baseras ofta på att stickprovets medelvärde är ungefär normalfördelat.
- Vid simuleringar och stokastisk modellering möjliggör CLT att totalsummor eller medelvärden kan approximeras med normalfördelning även om de individuella observationerna inte är normalfördelade.
En vanlig tumregel i undervisning är att n≥30 ofta ger en rimlig normalapproximation, men det beror mycket på underliggande fördelnings skevhet och kurtos. Vid stark skevhet eller tunga svansar behövs större n.
Gränser för approximationens kvalitet
Det finns resultat som kvantifierar hur snabbt approximationen går. Berry–Esseen-satsen ger en bound för avvikelsen mellan kumulativa fördelningsfunktioner och visar i många fall att felet är av storleksordningen O(1/√n) och beror på tredje absoluta momentet (skrivbart med E|Xi-μ|^3).
Exempel
- Myntkast: Summan av n oberoende Bernoulli(p)-variabler är Bin(n,p). För stora n approximeras Bin(n,p) av N(np, np(1-p)).
- Medelvärde av uniforma variabler: Om Xi ~ U(0,1), så har deras medelvärde för stora n en fördelning nära normal med medelvärde 1/2 och varians 1/(12 n).
- Poisson: För stor λ kan Poisson(λ) approximeras med N(λ, λ).
- Motexempel: Om Xi har Cauchy-fördelning (ingen ändlig varians) så gäller inte CLT i normalform — summan förblir Cauchy-fördelad (stabila fördelningar).
Bevisidé (kort)
Ett vanligt bevis använder karakteristiska funktioner φ_X(t) = E[e^{itX}]. För i.i.d. variabler blir karakteristiska funktionen för den standardiserade summan [φ_X(t/(σ√n))]^n, och en Taylorutveckling av log φ_X nära t=0 visar att denna funktion konvergerar punktvis mot e^{-t^2/2}, som är karakteristiska funktionen för N(0,1). Sedan används Lévy's kontinuitetssats för att dra slutsatsen om konvergens i fördelning.
Vanliga missförstånd
- CLT kräver inte att de enskilda variablerna är normalfördelade.
- CLT garanterar inte att approximationen är bra för små n — kvaliteten beror på ursprungsfördelningen.
- Om variansen inte är ändlig gäller inte normalversionen av CLT; andra gränsfall kan uppstå med stabila fördelningar.
Historik och vidare läsning
Den centrala gränssatsen har en lång historia: specialfallet för binomialfördelningen behandlades av de Moivre och Laplace. Allmänna former utvecklades av bl.a. Lyapunov och Lindeberg. Satsen har fått många förfiningar (Berry–Esseen, Edgeworth-expansioner) som ger bättre approximationer och hastigheter för konvergensen.
För grundläggande vidare läsning rekommenderas läroböcker i sannolikhetsteori och asymptotisk statistik som behandlar karakteristiska funktioner, momentvillkor och satsens olika varianter.
Relaterade sidor
Frågor och svar
Fråga: Vad är den centrala gränssatsen?
S: Den centrala gränssatsen (CLT) är en sats om gränsbeteenden hos aggregerade sannolikhetsfördelningar. Den säger att givet ett stort antal oberoende slumpvariabler kommer deras summa att följa en stabil fördelning. Om variansen hos slumpvariablerna är ändlig kommer en gaussisk fördelning att uppstå.
Fråga: Vem skrev den artikel som denna sats bygger på?
Svar: George Pَlya skrev 1920 artikeln "About the Central Limit Theorem in Probability Theory and the Moment Problem", som låg till grund för denna sats.
F: Vilken typ av fördelning uppstår när alla slumpvariabler har ändlig varians?
Svar: När alla slumpvariabler har ändlig varians kommer en gaussisk eller normalfördelning att bli resultatet om man tillämpar CLT.
F: Finns det några generaliseringar av CLT?
S: Ja, det finns olika generaliseringar av CLT som inte längre kräver en identisk fördelning av alla slumpvariabler. Dessa generaliseringar omfattar Lindeberg- och Lyapunovvillkor som säkerställer att ingen enskild slumpvariabel har större inflytande än andra på resultatet.
F: Hur fungerar dessa generaliseringar?
S: Dessa generaliseringar säkerställer att ingen enskild slumpvariabel har större inflytande än andra på utfallet genom att införa ytterligare förutsättningar, t.ex. Lindeberg- och Lyapunovvillkor.
F: Vad säger CLT om sampelsnittet och summan av ett stort antal oberoende slumpvariabler med samma fördelning?
S: Enligt CLT gäller att om n identiska och oberoende fördelade slumpvariabler med medelvärde ى {\displaystyle \mu } och standardavvikelse َ {\displaystyle \sigma } så kommer deras urvalsmedelvärde (X1+...+Xn)/n att vara ungefärligt normalt med medelvärde ى {\displaystyle \mu } och standardavvikelse َ/√n {\displaystyle {\tfrac {\sigma }{\sqrt {n}}}} . Dessutom kommer deras summa X1+...+Xn också att vara ungefärligt normal med medelvärde nى {\displaystyle n\mu } och standardavvikelse √nَ {\displaystyle {\sqrt {n}}\sigma } .
Sök