Zipfs lag

Zipfs lag är en empirisk lag, formulerad med hjälp av matematisk statistik, uppkallad efter lingvisten George Kingsley Zipf, som först föreslog den.

Zipfs lag säger att om ett stort urval av ord används, är frekvensen av ett ord omvänt proportionell mot dess rang i frekvenstabellen. Ord nummer n har alltså en frekvens som är proportionell mot 1/n.

Det mest frekventa ordet kommer alltså att förekomma ungefär dubbelt så ofta som det näst mest frekventa ordet, tre gånger så ofta som det tredje mest frekventa ordet osv. I ett urval av ord i det engelska språket utgör till exempel det mest frekvent förekommande ordet, "the", nästan 7 % av alla ord (69 971 av drygt 1 miljon ord). I enlighet med Zipfs lag står ordet "of" på andra plats för drygt 3,5 % av alla ord (36 411 förekomster), följt av "and" (28 852). Det behövs endast cirka 135 ord för att stå för hälften av alla ord i ett stort urval.

Samma förhållande finns i många andra rankningar som inte har med språk att göra, t.ex. befolkningsrankningar av städer i olika länder, företagsstorlekar, inkomstrankningar osv. Felix Auerbach uppmärksammade först 1913 att fördelningen förekommer i rangordningar av städer efter befolkningstal.

Man vet inte varför Zipfs lag gäller för de flesta språk.

Frågor och svar

F: Vad är Zipfs lag?


S: Zipfs lag är en empirisk lag som säger att frekvensen av ett ord i ett stort urval är omvänt proportionell mot dess rang i frekvenstabellen.

F: Vem föreslog Zipfs lag?


S: Zipfs lag föreslogs först av George Kingsley Zipf, en lingvist.

F: Hur förklarar Zipfs lag ordfrekvensen i ett urval av engelska ord?


S: Enligt Zipfs lag förekommer det mest frekventa ordet i ett urval av engelska ord ungefär dubbelt så ofta som det näst mest frekventa ordet, tre gånger så ofta som det tredje mest frekventa ordet osv. Denna trend fortsätter när ordets rangordning minskar.

F: Hur många procent av alla ord utgör det mest frekvent förekommande ordet i ett urval av engelska ord?


S: I ett urval av engelska ord utgör det mest frekvent förekommande ordet ("the") nästan 7% av alla ord.

F: Vad är förhållandet mellan antalet ord som behövs för att representera halva urvalet och frekvensen av dessa ord?


S: Enligt Zipfs lag behövs det bara ca 135 ord för att motsvara hälften av alla ord i ett stort urval.

F: Vilka andra rangordningar uppvisar Zipfs lag?


S: Samma förhållande som Zipfs lag beskriver i frekvensen av ord förekommer i andra rangordningar som inte är relaterade till språk, till exempel befolkningsrankningen av städer i olika länder, företagsstorlekar och inkomstrankning.

F: Vem lade märke till hur fördelningen såg ut i rankningen av städer efter befolkning?


S: Uppkomsten av fördelningen i rankningar av städer efter befolkning noterades först av Felix Auerbach 1913.

AlegsaOnline.com - 2020 / 2023 - License CC3