Ömsesidig information mäter hur mycket mer man vet om ett slumpmässigt värde när man får ett annat. Om man till exempel känner till temperaturen en slumpmässig dag på året kan man inte veta vilken månad det är, men det ger en antydan om vilken månad det är. På samma sätt avslöjar inte vetskapen om vilken månad det är den exakta temperaturen, men gör vissa temperaturer mer eller mindre sannolika. Dessa antydningar eller förändringar i sannolikheten förklaras och mäts med hjälp av ömsesidig information.

 

Formell definition

Ömsesidig information mellan två diskreta stokastiska variabler X och Y definieras som

I(X;Y) = H(X) − H(X|Y) = H(Y) − H(Y|X),

där H(·) är entropin (ett mått på osäkerhet) och H(·|·) är villkorlig entropi. Ett ekvivalent uttryck är

I(X;Y) = Σ_{x,y} p(x,y) log [ p(x,y) / (p(x)p(y)) ],

vilket visar att ömsesidig information också är en Kullback–Leibler-avstånd (KL-divergens) mellan den gemensamma fördelningen p(x,y) och produkten av marginalerna p(x)p(y):

I(X;Y) = D_KL( p(x,y) || p(x)p(y) ).

Egenskaper

  • Alltid icke-negativ: I(X;Y) ≥ 0.
  • Symmetrisk: I(X;Y) = I(Y;X).
  • Nollskildhet vid oberoende: I(X;Y) = 0 om och endast om X och Y är oberoende (p(x,y)=p(x)p(y)).
  • Övre gräns: I(X;Y) ≤ min(H(X), H(Y)).
  • Kedjeregel: I(X; Y, Z) = I(X;Y) + I(X;Z | Y).
  • Data processing inequality: Om X → Y → Z är en markovkedja så gäller I(X;Z) ≤ I(X;Y). Det innebär att ingen bearbetning av Y kan skapa mer information om X än vad Y redan innehåller.

Tolkning

Ömsesidig information kvantifierar hur mycket osäkerhet om X reduceras när man känner till Y (eller vice versa). En praktisk tolkning är att I(X;Y) motsvarar antalet bits (om log bas 2 används) av information Y ger om X i genomsnitt. Ju högre ömsesidig information, desto starkare statistisk samband och större möjlighet att förutsäga den ena variabeln från den andra.

Exempel

  • Om X och Y är oberoende myntkast så är I(X;Y)=0 — att känna resultatet av det ena myntet säger inget om det andra.
  • Om Y är en deterministisk funktion av X (t.ex. Y = X) så är I(X;Y)=H(X) — Y ger all information om X.
  • Praktiskt exempel: kännedom om månaden ger en sannolikhetsförskjutning över temperaturer; detta motsvarar en positiv men vanligtvis begränsad ömsesidig information eftersom flera temperaturer kan förekomma i samma månad.

Kontinuerliga variabler

För kontinuerliga variabler används densitetsfunktioner och man talar om differentialentropi h(·). Ömsesidig information för kontinuerliga variabler kan formellt skrivas på samma KL-form som ovan och är väl definierad och oberoende av koordinattransformationer. Observera att differentialentropi kan vara negativ och har därför inte alltid samma intuitiva gränser som diskret entropi, men I(X;Y) för kontinuerliga variabler är fortfarande ≥ 0.

Beräkning och estimering

I praktiken kräver uppskattning av ömsesidig information att man skattar fördelningar eller sannolikhetstätheter. Vanliga metoder:

  • Binning / histogram: Diskretisera data och använd frekvenser. Enkelt men känsligt för binstorlek.
  • Plug-in estimatorer: Skatta p(x,y), p(x) och p(y) direkt och beräkna summan. Kräver mycket data för höga dimensioner.
  • K–närmaste granne (Kraskov mm.): Icke-parametrisk metod väl lämpad för kontinuerliga data och ofta bättre i små provstorlekar.
  • Parametriska antaganden: Om man antar t.ex. gemensamt gaussiska variabler finns analytiska formler: I(X;Y) = −0.5 log det(I − ρ^2) i enkla fall eller via kovariansmatriser i multivariata fall.

Tillämpningar

  • Kommunikationsteori: Kanalens kapacitet definieras via maximal ömsesidig information mellan insignal och utsignal.
  • Maskininlärning och feature selection: Välja variabler som innehåller mest information om målvariabeln.
  • Neuroscience: Kvantifiera hur mycket responsen hos en neuron berättar om ett stimuli.
  • Bild- och signalbehandling: Registrering, kompression och beroendemätning mellan signaler.

Praktiska råd

  • Välj estimator efter datatyp och mängd data. Icke-parametriska metoder (t.ex. Kraskov) fungerar ofta bra för kontinuerliga data med måttliga provstorlekar.
  • Var försiktig med diskretisering — binstorlek påverkar skattningen kraftigt.
  • Kom ihåg att ömsesidig information mäter statistiskt beroende, men säger inget om orsakssamband.

Sammanfattningsvis är ömsesidig information ett centralt och mångsidigt verktyg inom informationsteori för att mäta hur mycket två variabler delar i information, med fasta matematiska egenskaper och breda tillämpningar inom vetenskap och teknik.