Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.2.3)
⠀
Definition: TD-Berechnung des Zustandsnutzens bezüglich einer Strategie
Sei
ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Seieine Strategie.
Seider Lernparameter. Mithilfe des TD-Learnings können wir den Zustandsnutzen bezüglich
bei jeder neuen Beobachtung aktualisieren durch: wobei wir initial annehmen, dass
.
Anmerkung
Lernparameter
Häufig wird der Lernparameter
nicht konstant gewählt, sondern nimmt mit Anzahl der Beobachtungen ab. Eine gängige Wahl für
ist beispielsweise , wobei die Anzahl der bisherigen Beobachtungen sei.