Bayesianskt nätverk är en typ av graf som används för att modellera beroenden mellan händelser eller variabler, ofta när dessa inte kan observeras direkt. Grafen är riktad och utan cykler (en så kallad riktad acyklisk graf, DAG). Varje nod i grafen representerar en slumpmässig variabel och varje riktad kant fångar ett sannolikhetsberoende mellan variablerna; kantens effekt beskrivs av en villkorlig sannolikhet som anger hur sannolikheten för en nod påverkas av dess föräldrar.

Struktur och sannolikhetsfaktorering

Ett Bayesianskt nätverk kodar en gemensam sannolikhetsfördelning genom att faktorisera den enligt grafens struktur. Om nätverket har noder X1,...,Xn och Pa(Xi) är mängden föräldrar till Xi, så gäller

P(X1,...,Xn) = ∏i P(Xi | Pa(Xi))

Varje nod har en tillhörande villkorlig sannolikhetstabell (CPT) som anger P(Xi | Pa(Xi)). Ett enkelt exempel är de klassiska noderna Rain, Sprinkler och WetGrass, där Rain och Sprinkler båda påverkar WetGrass. Då kan den gemensamma fördelningen skrivas som P(Rain)·P(Sprinkler | Rain)·P(WetGrass | Rain, Sprinkler).

Inferens (slutsatsdragning)

Målet med inferens är att beräkna villkorliga sannolikheter givet observationer, till exempel P(X | evidence). Exakt inferens i allmänna Bayesianska nätverk är beräkningsmässigt krävande (NP-hårt), men flera metoder används i praktiken:

  • Exakta metoder: variablernas eliminationsalgoritmer, junction tree / belief propagation i trädliknande strukturer.
  • Approximerande metoder: Monte Carlo-sampling (t.ex. Gibbs sampling, MCMC), variational inference och loopy belief propagation.

Inlärning från data

Det finns två huvudproblem när man lär ett Bayesianskt nätverk från data:

  • Parameterinlärning: givet en struktur, uppskatta CPT:erna. Vanliga metoder är Maximum Likelihood och Bayesiansk estimering (t.ex. Dirichlet-priorer). Dessa metoder kan hantera saknade värden i data.
  • Strukturinlärning: lära grafens kanter från data. Tillvägagångssätt kan vara poängbaserade algoritmer (t.ex. BIC, BDe-score) med sökning i strukturrummet eller constraint-baserade metoder som upptäcker villkorliga oberoenden. Expertkunskap kan ofta kombineras med data för bättre resultat.

Viktiga begrepp

  • D-separation: ett kriterium för att avgöra vilka variabler som är oberoende givet en uppsättning observationer.
  • Markov blanket: den minsta mängd noder som renderar en viss nod oberoende från resten av nätverket; används för bl.a. funktionsval (feature selection).
  • Dyn. Bayesianska nätverk (DBN): utvidgar modellen till sekvenser och tidsserier; Hidden Markov Models är ett specialfall.
  • Kausal tolkning: med ytterligare antaganden kan kanter i ett Bayesianskt nätverk tolkas som kausala samband (arbete av bl.a. Judea Pearl). För kausala slutsatser krävs dock noggrann modellering och experiment/antaganden.

Tillämpningar inom maskininlärning och andra områden

Bayesianska nätverk används ofta när man behöver kombinera osäker information, hantera saknade data eller erbjuda tolkbara modeller. Exempel på tillämpningar:

  • Klassificering och beslutsstöd (med eller utan expertkunskap).
  • Diagnostik i medicin och felsökning i tekniska system.
  • Bild-, dokument- och taligenkänning samt andra uppgifter där man vill kombinera olika informationskällor.
  • Informationssökning och rekommendationssystem.
  • Biostatistik och genetik för modellering av beroenden mellan biologiska variabler.
  • Robotik och sekventiella beslut via dynamiska Bayesianska nätverk.

Fördelar och begränsningar

  • Fördelar: Tolkningsbarhet, möjlighet att kombinera data och expertkunskap, robusthet mot saknade värden och tydlig probabilistisk tolkning (byggd på Bayes' teorem).
  • Begränsningar: Exakt inferens kan vara mycket dyrbart i stora eller tätt kopplade nätverk. Strukturinlärning kan vara svår och kräver stora datamängder för komplexa system. Kausala tolkningar kräver ofta extra antaganden eller experimentell validering.

Sammanfattningsvis är Bayesianska nätverk ett kraftfullt verktyg inom maskininlärning och beslutsstöd för att modellera och resonera under osäkerhet. Val av inferens- och inlärningsmetod beror på problemets storlek, tillgängliga data och krav på tolkbarhet eller realtidsberäkning.