Inom sannolikhetsteori och statistik är de centrala gränssatserna, förkortat CLT, teorem om gränsbeteendena för aggregerade sannolikhetsfördelningar. De säger att givet ett stort antal oberoende slumpvariabler kommer deras summa att följa en stabil fördelning. Om variansen hos slumpvariablerna är ändlig kommer en gaussisk fördelning att uppstå. Detta är en av anledningarna till att denna fördelning också kallas normalfördelning.

Den mest kända och viktigaste av dessa är den s.k. centrala gränssatsen. Den handlar om ett stort antal slumpmässiga variabler med samma fördelning, var och en med en identisk ändlig varians och förväntat värde.

Om {\displaystyle X_{1},\ldots ,X_{n}} är n identiska och oberoende distribuerade slumpvariabler med medelvärde \mu och standardavvikelse {\displaystyle \sigma }så är fördelningen av deras medelvärde, + X n ) / n {\displaystyle (X_{1}+\cdots +X_{n})/n} {\displaystyle (X_{1}+\cdots +X_{n})/n}när n blir stor, är ungefär normal med medelvärdet \mu och standardavvikelsen {\displaystyle {\tfrac {\sigma }{\sqrt {n}}}} . Dessutom är fördelningen av deras summa, + X n {\displaystyle X_{1}+\cdots +X_{n}} {\displaystyle X_{1}+\cdots +X_{n}}, när n blir stor, är också ungefär normal, med medelvärde {\displaystyle n\mu } och standardavvikelse {\displaystyle {\sqrt {n}}\sigma }.

Det finns olika generaliseringar av denna sats. Vissa av dessa generaliseringar kräver inte längre att alla slumpvariabler har samma fördelning. I dessa generaliseringar säkerställer en annan förutsättning att ingen enskild slumpvariabel har ett större inflytande på resultatet än de andra. Exempel på detta är Lindeberg- och Lyapunovvillkoren.

Satsens namn är baserat på en artikel som George Pólya skrev 1920, About the Central Limit Theorem in Probability Theory and the Moment problem.


 

Formell standardiserad version

En vanlig form av den centrala gränssatsen säger: om X1, X2, ..., Xn är oberoende och identiskt fördelade (i.i.d.) slumpvariabler med förväntat värde μ och varians σ2 < ∞, så konvergerar den standardiserade summan i fördelning till standardnormalfördelningen:

  • ((Σ_{i=1}^n Xi) - nμ) / (σ √n) →_d N(0,1)

Det innebär att för stora n approximeras sannolikheter om summan eller medelvärdet med motsvarande sannolikheter under en normalfördelning.

Intuition och varför det gäller

Intuitivt "utjämnar" summan av många oberoende slumpbetingelser ut extremt stora avvikelser, och bidragen från varje variabel samlas till ett nästan symmetriskt klockformat. Formella bevis använder ofta karakteristiska funktioner (Fourier-transformer av fördelningar) eller momentgenererande funktioner och visar att produkt av dessa funktioner närmar sig karakteristiska funktionen för en normalfördelning. En annan vanlig metod bygger på expansionsmetoder (Taylorutveckling) och slutar med centrala gränsvärdet genom användning av kontinuitetssatsen för fördelningsfunktioner.

Varianter och villkor

  • De Moivre–Laplace är ett klassiskt specialfall som säger att binomialfördelningen Bin(n,p) närmar sig normalfördelningen för stora n.
  • Lindebergs villkor (allmänt): gäller för oberoende men icke-identiskt fördelade variabler. Lindebergvillkoret kräver att inga enskilda variabler ger dominerande bidrag — formellt måste för alla ε > 0: (1/s_n^2) Σ E[(Xi-μi)^2 1_{|Xi-μi|>ε s_n}] → 0 då n→∞, där s_n^2 = Σ Var(Xi).
  • Lyapunovs villkor: om det finns δ > 0 sådant att (1/s_n^{2+δ}) Σ E|Xi-μi|^{2+δ} → 0, så håller CLT. Lyapunov är ett starkare (men enklare att kontrollera) villkor än Lindeberg.
  • Stable laws: om variansen är oändlig (t.ex. Cauchy-fördelning eller andra tunga svansar) leder inte CLT till normalfördelning utan till andra så kallade stabila fördelningar.

Praktiska konsekvenser och användning

Den centrala gränssatsen är grunden för många statistiska metoder:

  • Konfidensintervall och hypotestest för medelvärden baseras ofta på att stickprovets medelvärde är ungefär normalfördelat.
  • Vid simuleringar och stokastisk modellering möjliggör CLT att totalsummor eller medelvärden kan approximeras med normalfördelning även om de individuella observationerna inte är normalfördelade.

En vanlig tumregel i undervisning är att n≥30 ofta ger en rimlig normalapproximation, men det beror mycket på underliggande fördelnings skevhet och kurtos. Vid stark skevhet eller tunga svansar behövs större n.

Gränser för approximationens kvalitet

Det finns resultat som kvantifierar hur snabbt approximationen går. Berry–Esseen-satsen ger en bound för avvikelsen mellan kumulativa fördelningsfunktioner och visar i många fall att felet är av storleksordningen O(1/√n) och beror på tredje absoluta momentet (skrivbart med E|Xi-μ|^3).

Exempel

  • Myntkast: Summan av n oberoende Bernoulli(p)-variabler är Bin(n,p). För stora n approximeras Bin(n,p) av N(np, np(1-p)).
  • Medelvärde av uniforma variabler: Om Xi ~ U(0,1), så har deras medelvärde för stora n en fördelning nära normal med medelvärde 1/2 och varians 1/(12 n).
  • Poisson: För stor λ kan Poisson(λ) approximeras med N(λ, λ).
  • Motexempel: Om Xi har Cauchy-fördelning (ingen ändlig varians) så gäller inte CLT i normalform — summan förblir Cauchy-fördelad (stabila fördelningar).

Bevisidé (kort)

Ett vanligt bevis använder karakteristiska funktioner φ_X(t) = E[e^{itX}]. För i.i.d. variabler blir karakteristiska funktionen för den standardiserade summan [φ_X(t/(σ√n))]^n, och en Taylorutveckling av log φ_X nära t=0 visar att denna funktion konvergerar punktvis mot e^{-t^2/2}, som är karakteristiska funktionen för N(0,1). Sedan används Lévy's kontinuitetssats för att dra slutsatsen om konvergens i fördelning.

Vanliga missförstånd

  • CLT kräver inte att de enskilda variablerna är normalfördelade.
  • CLT garanterar inte att approximationen är bra för små n — kvaliteten beror på ursprungsfördelningen.
  • Om variansen inte är ändlig gäller inte normalversionen av CLT; andra gränsfall kan uppstå med stabila fördelningar.

Historik och vidare läsning

Den centrala gränssatsen har en lång historia: specialfallet för binomialfördelningen behandlades av de Moivre och Laplace. Allmänna former utvecklades av bl.a. Lyapunov och Lindeberg. Satsen har fått många förfiningar (Berry–Esseen, Edgeworth-expansioner) som ger bättre approximationer och hastigheter för konvergensen.

För grundläggande vidare läsning rekommenderas läroböcker i sannolikhetsteori och asymptotisk statistik som behandlar karakteristiska funktioner, momentvillkor och satsens olika varianter.