Normalfördelningen är en sannolikhetsfördelning. Den kallas också Gauss-fördelning eftersom den upptäcktes av Carl Friedrich Gauss. Normalfördelningen är en kontinuerlig sannolikhetsfördelning. Den är mycket viktig inom många vetenskapliga områden. Normalfördelningar är en familj av fördelningar av samma allmänna form. Dessa fördelningar skiljer sig åt genom sina parametrar för läge och skala: fördelningens medelvärde ("genomsnitt") definierar dess läge, och standardavvikelsen ("variabilitet") definierar skalan.

Standardnormalfördelningen (även kallad Z-fördelningen) är en normalfördelning med medelvärdet noll och variansen ett (de gröna kurvorna i diagrammen till höger). Den kallas ofta för klockkurvan eftersom grafen för dess sannolikhetstäthet ser ut som en klocka.

Många värden följer en normalfördelning. Detta beror på teoremet om den centrala gränsen, som säger att om en händelse är summan av andra slumpmässiga händelser kommer den att vara normalfördelad. Några exempel är:

  • mätfel och instrumentavläsningar,
  • biologiska mått som kroppslängd och blodtryck i stora populationer,
  • intelligenspoäng och många psykometriska testresultat,
  • summan av ett stort antal oberoende små effekter i ekonomi och naturvetenskap.

Definition och matematisk form

En kontinuerlig slumpvariabel X sägs vara normalfördelad med medelvärde μ och standardavvikelse σ (σ > 0) om dess täthetsfunktion är

f(x) = (1 / (σ * sqrt(2π))) * exp( - (x - μ)² / (2σ²) ), för alla reella x.

Variansen är σ². För standardnormalfördelningen används ofta beteckningen Z ~ N(0,1).

Egenskaper

  • Symmetri: Kurvan är symmetrisk kring μ; vänster och höger sida är spegelbilder.
  • Unimodal: Ett enda toppvärde vid μ.
  • Asymptoter: Täckningen går mot noll i båda ändarna men når aldrig exakt noll.
  • Momenter: Medelvärdet = μ, variansen = σ², skevhet = 0, kurtosis = 3 (excess kurtosis = 0).
  • Stabilitet: Summan av oberoende normalfördelade variabler är normalfördelad.

Standardisering och Z-poäng

För att jämföra eller beräkna sannolikheter används ofta standardiseringen

Z = (X - μ) / σ.

Då följer Z standardnormalfördelningen. Sannolikheter för X kan alltså beräknas genom tabeller eller programvara för Z-värden (s.k. Z-tabeller) eller genom inbyggda funktioner i statistiska paket.

Empirisk regel (68–95–99.7)

  • Cirka 68 % av observationerna ligger inom μ ± σ.
  • Cirka 95 % ligger inom μ ± 2σ.
  • Cirka 99.7 % ligger inom μ ± 3σ.

Dessa ungefärliga andelar är praktiskt användbara för snabba bedömningar av avvikelse från förväntat värde.

Sannolikhetsberäkningar

Eftersom integralen av täthetsfunktionen inte har någon elementär primitiv används kumulativa fördelningsfunktioner (CDF) och numeriska metoder eller tabeller för att få exakta sannolikheter. Vanliga verktyg är statistiska program (R, Python), kalkylatorer och Z-tabeller.

Skattning från data och test av normalitet

  • Skattning: Vanlig skattning av μ är stickprovsmedelvärdet och av σ stickprovsstandardavvikelsen (med n-1 i nämnaren för ett obiaserat estimat av variansen).
  • Normalitetstest: Shapiro–Wilk, Kolmogorov–Smirnov, Anderson–Darling med flera kan användas för att testa om data följer en normalfördelning.
  • Visuella metoder: Histogram, densitetskurvor och QQ-plot (kvantil–kvantil-plot) ger snabb visuell bedömning.

Tillämpningar och exempel

Normalfördelningen används flitigt i statistik, fysik, ekonomi, ingenjörsvetenskap och samhällsvetenskap. Exempel:

  • Bestämma konfidensintervall för medelvärden och hypotesprövningar.
  • Modellera mätfel och slumpmässiga variationer i experiment.
  • Riskanalys och kvalitetskontroll (t.ex. sex-sigma-metodik).

Begränsningar

Inte alla datamängder är normalfördelade. Data med kraftiga snedheter, tung svans (heavy tails) eller diskreta fördelningar kan bryta antagandet. I sådana fall kan andra fördelningar eller icke-parametriska metoder vara lämpligare.

Sammanfattningsvis är normalfördelningen en central modell i statistik, särskilt för att den ofta uppstår som en approximation via den centrala gränssatsen, och för dess enkla matematiska egenskaper som gör analys och inferens möjlig i många praktiska situationer.