Översikt
Zipfs lag är en empirisk lag som beskriver hur förekomsten av element i stora uppsättningar ofta förhåller sig till deras plats i en rangordning. Lagen är uppkallad efter lingvisten George Kingsley Zipf, som populariserade observationen under 1930– och 1940-talen. Fenomenet iakttogs dock tidigare i andra sammanhang, bland annat i studier av staders storlekar.

Vad lagen säger

Den enklaste formen av Zipfs lag uttrycks som att frekvensen f_r för det element som har rang r är ungefär proportionell mot 1/r. I praktiken skrivs detta ofta som f_r \u221D 1/r eller mer allmänt f_r = C / r^s, där konstanten s ligger nära 1 i många empiriska fall. Denna förklaring avser rang i en frekvenstabell och kan formellt härledas eller testas med hjälp av matematisk och statistisk analys.

Exempel och tillämpningar

Zipfs lag upptäcks inte bara i språk. Några vanliga exempel är:

  • Ord i textkorpusar: de vanligaste orden förekommer mycket oftare än de flesta andra — i engelska korpus är artikeln "the" ofta ett tydligt exempel.
  • Städers befolkning: när städer sorteras efter invånarantal följer ofta den n:te stadens storlek ungefär en invers relation mot n — en observation som noterades tidigt av Felix Auerbach och senare relaterades till Zipf.
  • Företagsstorlekar, inkomster, webbtrafik och andra rankade storheter där en liten andel dominerar resten.

Tolkningar, generaliseringar och begränsningar

Det finns flera förklaringsförsök till varför Zipfs lag uppträder: mekanismer som preferential attachment ("den rike blir rikare"), optimeringsprinciper i kommunikation, stokastiska modeller och kombinatoriska/sekvensteorier. Inget av dessa ger ett entydigt, allmänt accepterat svar; ofta räcker olika mekanismer till i olika sammanhang.

Zipfs lag är också en specialfall av bredare klass av så kallade kraftlagar (power laws). En vanlig generalisering är Zipf–Mandelbrotlagen, som introducerar en förskjutningsparameter q: f_r \u221D 1/(r+q)^s. Denna form kan ge bättre anpassning i praktiska data där avvikelser förekommer i toppen av rankningen.

Hur man känner igen och prövar lagen

I empiriska studier plottas ofta frekvens mot rang i en log-log-graf; om punkterna ligger nära en rät linje med lutning nära -1 är detta stöd för en Zipf-liknande fördelning. Viktigt är att bedöma kvaliteten på data, urvalsbias och om ett annat s-värde eller en annan modell ger bättre förklaring.

Väsentliga fakta och noteringar

  • Zipfs lag är i första hand empirisk — den anger ett mönster, inte en orsak.
  • I språkstudier är observationen praktisk för textmodellering, informationskompression och korpuslingvistik.
  • Generaliserade modeller och alternativa förklaringar gör att samma mönster kan tolkas mycket olika beroende på fält: se vidare litteratur och metodiska recensioner via ranganalys och avancerade statistiska modeller.

För vidare läsning och historiska källor om uppkomsten av begreppet och dess spridning inom olika vetenskaper, se introduktioner och översikter som behandlar både Zipfs originaltexter och efterföljande arbete inom statistik och komplexitetsteori. Mer information finns även i översiktsartiklar om empiriska kraftlagar och deras tillämpningar (översikt, teori, metodik).