Förstärkningsinlärning
Biologin bakom förstärkningsinlärning finns på Operant konditionering och belöning.
Förstärkningsinlärning (Reinforcement Learning, RL) innebär att man lär en mjukvaruagent hur den ska bete sig i en miljö genom att tala om för den hur bra den gör det. Det är ett område inom maskininlärning som är inspirerat av beteendepsykologi.
Förstärkningsinlärning skiljer sig från övervakad inlärning eftersom de korrekta ingångarna och utgångarna aldrig visas. Dessutom lär sig förstärkningsinlärning vanligtvis under tiden (onlineinlärning) till skillnad från övervakad inlärning. Detta innebär att en aktör måste välja mellan att utforska och att hålla sig till det som den känner till bäst.
Inledning
Ett system för förstärkningsinlärning består av en policy ( π {\\displaystyle \pi } ), en belöningsfunktion ( R {\displaystyle R} ), en värdefunktion ( v {\displaystyle v} ) och en valfri modell av miljön.
En policy talar om för agenten vad han eller hon ska göra i en viss situation. Det kan vara en enkel tabell med regler eller en komplicerad sökning efter rätt åtgärd. Policys kan till och med vara stokastiska, vilket innebär att policyn i stället för regler tilldelar sannolikheter till varje åtgärd. En policy kan i sig själv få en agent att göra saker, men den kan inte lära sig på egen hand.
En belöningsfunktion definierar målet för en agent. Den tar emot ett tillstånd (eller ett tillstånd och den åtgärd som vidtagits i det tillståndet) och ger tillbaka ett tal som kallas belöning och som talar om för agenten hur bra det är att vara i det tillståndet. Agentens uppgift är att få den största belöningen som möjligt på lång sikt. Om en åtgärd ger en låg belöning kommer agenten förmodligen att vidta en bättre åtgärd i framtiden. Biologin använder belöningssignaler som njutning eller smärta för att se till att organismerna håller sig vid liv för att kunna reproducera sig. Belöningssignaler kan också vara stokastiska, som en spelautomat på ett kasino, där de ibland ger utdelning och ibland inte.
En värdefunktion talar om för en agent hur mycket belöning den kommer att få om den följer en policy π {\displaystyle \pi } med utgångspunkt i tillstånd s {\displaystyle s} . Den representerar hur önskvärt det är att befinna sig i ett visst tillstånd. Eftersom värdefunktionen inte ges direkt till agenten måste den komma fram till en bra gissning eller uppskattning utifrån den belöning som den har fått hittills. Uppskattningen av värdefunktionen är den viktigaste delen av de flesta algoritmer för förstärkningsinlärning.
En modell är agentens mentala kopia av miljön. Den används för att planera framtida åtgärder.
När vi vet detta kan vi tala om huvudloopen för en förstärkningsinlärningsepisod. Agenten interagerar med miljön i diskreta tidssteg. Tänk på det som "tick-tock" på en klocka. Med diskret tid händer saker bara under "tick" och "tock", och inte däremellan. Vid varje tidpunkt t = 0 , 1 , 2 , 3 , . . . {\displaystyle t=0,1,2,3,... } observerar agenten miljöns tillstånd S t {\displaystyle S_{t}} och väljer en åtgärd A t {\displaystyle A_{t}} baserat på en policy π {\displaystyle \pi } . I nästa steg får agenten en belöningssignal R t + 1 {\displaystyle R_{t+1}} och en ny observation S t + 1 {\displaystyle S_{t+1}} . Värdefunktionen v ( S t ) {\displaystyle v(S_{t})} uppdateras med hjälp av belöningen. Detta fortsätter tills ett sluttillstånd S T {\displaystyle S_{T}} {\displaystyle S_{T}} uppnås.