Ömsesidig information – definition och förklaring inom informationsteori
Lär dig vad ömsesidig information är inom informationsteori — hur kunskap om en variabel minskar osäkerhet om en annan. Klarspråk, exempel och praktiska tillämpningar.
Ömsesidig information mäter hur mycket mer man vet om ett slumpmässigt värde när man får ett annat. Om man till exempel känner till temperaturen en slumpmässig dag på året kan man inte veta vilken månad det är, men det ger en antydan om vilken månad det är. På samma sätt avslöjar inte vetskapen om vilken månad det är den exakta temperaturen, men gör vissa temperaturer mer eller mindre sannolika. Dessa antydningar eller förändringar i sannolikheten förklaras och mäts med hjälp av ömsesidig information.
Formell definition
Ömsesidig information mellan två diskreta stokastiska variabler X och Y definieras som
I(X;Y) = H(X) − H(X|Y) = H(Y) − H(Y|X),
där H(·) är entropin (ett mått på osäkerhet) och H(·|·) är villkorlig entropi. Ett ekvivalent uttryck är
I(X;Y) = Σ_{x,y} p(x,y) log [ p(x,y) / (p(x)p(y)) ],
vilket visar att ömsesidig information också är en Kullback–Leibler-avstånd (KL-divergens) mellan den gemensamma fördelningen p(x,y) och produkten av marginalerna p(x)p(y):
I(X;Y) = D_KL( p(x,y) || p(x)p(y) ).
Egenskaper
- Alltid icke-negativ: I(X;Y) ≥ 0.
- Symmetrisk: I(X;Y) = I(Y;X).
- Nollskildhet vid oberoende: I(X;Y) = 0 om och endast om X och Y är oberoende (p(x,y)=p(x)p(y)).
- Övre gräns: I(X;Y) ≤ min(H(X), H(Y)).
- Kedjeregel: I(X; Y, Z) = I(X;Y) + I(X;Z | Y).
- Data processing inequality: Om X → Y → Z är en markovkedja så gäller I(X;Z) ≤ I(X;Y). Det innebär att ingen bearbetning av Y kan skapa mer information om X än vad Y redan innehåller.
Tolkning
Ömsesidig information kvantifierar hur mycket osäkerhet om X reduceras när man känner till Y (eller vice versa). En praktisk tolkning är att I(X;Y) motsvarar antalet bits (om log bas 2 används) av information Y ger om X i genomsnitt. Ju högre ömsesidig information, desto starkare statistisk samband och större möjlighet att förutsäga den ena variabeln från den andra.
Exempel
- Om X och Y är oberoende myntkast så är I(X;Y)=0 — att känna resultatet av det ena myntet säger inget om det andra.
- Om Y är en deterministisk funktion av X (t.ex. Y = X) så är I(X;Y)=H(X) — Y ger all information om X.
- Praktiskt exempel: kännedom om månaden ger en sannolikhetsförskjutning över temperaturer; detta motsvarar en positiv men vanligtvis begränsad ömsesidig information eftersom flera temperaturer kan förekomma i samma månad.
Kontinuerliga variabler
För kontinuerliga variabler används densitetsfunktioner och man talar om differentialentropi h(·). Ömsesidig information för kontinuerliga variabler kan formellt skrivas på samma KL-form som ovan och är väl definierad och oberoende av koordinattransformationer. Observera att differentialentropi kan vara negativ och har därför inte alltid samma intuitiva gränser som diskret entropi, men I(X;Y) för kontinuerliga variabler är fortfarande ≥ 0.
Beräkning och estimering
I praktiken kräver uppskattning av ömsesidig information att man skattar fördelningar eller sannolikhetstätheter. Vanliga metoder:
- Binning / histogram: Diskretisera data och använd frekvenser. Enkelt men känsligt för binstorlek.
- Plug-in estimatorer: Skatta p(x,y), p(x) och p(y) direkt och beräkna summan. Kräver mycket data för höga dimensioner.
- K–närmaste granne (Kraskov mm.): Icke-parametrisk metod väl lämpad för kontinuerliga data och ofta bättre i små provstorlekar.
- Parametriska antaganden: Om man antar t.ex. gemensamt gaussiska variabler finns analytiska formler: I(X;Y) = −0.5 log det(I − ρ^2) i enkla fall eller via kovariansmatriser i multivariata fall.
Tillämpningar
- Kommunikationsteori: Kanalens kapacitet definieras via maximal ömsesidig information mellan insignal och utsignal.
- Maskininlärning och feature selection: Välja variabler som innehåller mest information om målvariabeln.
- Neuroscience: Kvantifiera hur mycket responsen hos en neuron berättar om ett stimuli.
- Bild- och signalbehandling: Registrering, kompression och beroendemätning mellan signaler.
Praktiska råd
- Välj estimator efter datatyp och mängd data. Icke-parametriska metoder (t.ex. Kraskov) fungerar ofta bra för kontinuerliga data med måttliga provstorlekar.
- Var försiktig med diskretisering — binstorlek påverkar skattningen kraftigt.
- Kom ihåg att ömsesidig information mäter statistiskt beroende, men säger inget om orsakssamband.
Sammanfattningsvis är ömsesidig information ett centralt och mångsidigt verktyg inom informationsteori för att mäta hur mycket två variabler delar i information, med fasta matematiska egenskaper och breda tillämpningar inom vetenskap och teknik.
Beräkning av ömsesidig information
Obligatorisk information
För att beräkna ömsesidig information behövs sannolikheten (chansen) för alla möjliga händelser och sannolikheten för att de ska inträffa samtidigt. För att mäta den ömsesidiga informationen mellan månad och temperatur behöver vi till exempel veta hur många dagar under året som är 10 grader Celsius, hur många dagar under året som är mars och slutligen hur många dagar som är 10 grader Celsius i mars.
Formel
Formeln kräver att man summerar, eller adderar, många termer eller tal. Varje möjligt resultat har sin egen term. I ovanstående beräkning av ömsesidig information mellan månad och temperatur använder vi följande variabler:
- p(x,y) = sannolikheten för att det är x grader Celsius i månad y.
- t(x) = sannolikheten för att det är x grader Celsius (vilken dag som helst på året).
- m(y) = sannolikheten för att det är månad y.
Detta innebär att m(3) är lika med sannolikheten för att en slumpmässigt vald dag infaller i mars. Detta är 31/365, eller ungefär 0,085, eftersom 31 av 365 dagar på året infaller i mars.
En mandatperiod skulle vara följande:
p ( x , y ) log ( p ( x , y ) t ( x ) m ( y ) ) {\displaystyle p(x,y)\log {\left({\frac {p(x,y)}{t(x)m(y)}}\right)}\\,\! }
I denna formel betyder "log" logaritm.
Genom att addera alla möjliga termer får man värdet för den ömsesidiga informationen.
Förståelse av ömsesidig information
Möjliga värden
Ju större den ömsesidiga informationen är, desto mer får man veta om ett slumpmässigt värde (t.ex. månad) när man får veta om ett annat (t.ex. temperatur).
- Om den ömsesidiga informationen är noll kan man inte avgöra något om ett värde när man får ett annat.
- Om du till exempel vet om du fick krona eller klave i ett myntkast förra gången säger det ingenting om vad som kommer att hända nästa gång.
- Om den ömsesidiga informationen är liten kan det fortfarande saknas ömsesidig information. Ibland verkar slumpmässiga händelser ha ett mönster på kort sikt, men totalt sett finns det ingen ömsesidig information.
- Om den ömsesidiga informationen är stor finns det troligen ett samband mellan de två sakerna som undersöks.
- Eftersom temperatur och månad är sammankopplade skulle deras ömsesidiga information vara mycket större än noll.
- Det är inte lätt att veta om den ömsesidiga informationen är betydande eller stor.
- Om den ömsesidiga informationen är ett, så kan du veta exakt vilket värde det andra värdet är.
- Om man till exempel väljer ett slumpmässigt skrivbord i ett klassrum kan läraren veta exakt vilken elev som kommer att sitta där. När vi vet vilket skrivbord som valdes ut kan vi få reda på exakt vilken elev som sitter där.
Viktiga fakta
Den ömsesidiga informationen ändras inte beroende på vilket av de två slumpmässiga värdena som avslöjas. Detta innebär att vi vet lika mycket om temperaturen när vi får veta månaden som vi vet om månaden när vi får veta temperaturen.
Ömsesidig information är svår att jämföra. Om vi beräknar den ömsesidiga informationen för väder och ett annat värde för ett kortspel kan de två värdena inte lätt jämföras.
Relaterade sidor
- Informationsteori
Sök