Definition: Approximierte Transitionswahrscheinlichkeitsfunktion

Sei ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Sei eine Menge von Probeläufen bezüglich einer Strategie .

Dann können wir approximieren durch:

In anderen Worten entspricht genau

  • der Anzahl der Beobachtungen , die in dem Zustand gestartet sind und durch die Aktion in den Zustand übergegangen sind
  • im Verhältnis zur Anzahl aller Beobachtungen , die in dem Zustand gestartet sind und bei denen die Aktion ausgeführt wurde.

Anmerkung

Achtung: Probleme mit der Approximation

Die hergeleitete Approximation kann nur auf Zustandspaare angewandt werden, die wir auch tatsächlich in beobachtet haben.

Ist , so setzen wir .