Definition: TD-Berechnung des Zustandsnutzens bezüglich einer Strategie

Sei ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Sei eine Strategie.
Sei der Lernparameter.

Mithilfe des TD-Learnings können wir den Zustandsnutzen bezüglich bei jeder neuen Beobachtung aktualisieren durch:

wobei wir initial annehmen, dass .

Anmerkung

Lernparameter

Häufig wird der Lernparameter nicht konstant gewählt, sondern nimmt mit Anzahl der Beobachtungen ab.

Eine gängige Wahl für ist beispielsweise , wobei die Anzahl der bisherigen Beobachtungen sei.