Konstrukte
:Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.2.2, Definition 3)
⠀
Definition: Approximierte Transitionswahrscheinlichkeitsfunktion
Sei
ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Seieine Menge von Probeläufen bezüglich einer Strategie . Dann können wir
approximieren durch: In anderen Worten entspricht
genau
- der Anzahl der Beobachtungen
, die in dem Zustand gestartet sind und durch die Aktion in den Zustand übergegangen sind - im Verhältnis zur Anzahl aller Beobachtungen
, die in dem Zustand gestartet sind und bei denen die Aktion ausgeführt wurde.
Anmerkung
Achtung: Probleme mit der Approximation
Die hergeleitete Approximation kann nur auf Zustandspaare
angewandt werden, die wir auch tatsächlich in beobachtet haben. Ist
, so setzen wir .