Definition: Temporal Difference Learning

Als Temporal Difference Learning (kurz TD-Learning) bezeichnen wir eine Klasse von Verfahren im Bereich des Reinforcement Learnings.

Beim TD-Learning werden die Nutzen der besuchten Zustände schon während der Durchführung der Probeläufe aktualisiert (und nicht erst nach deren Abschluss).

Die Grundidee ist also, dass der iterative berechnete Zustandsnutzen mit jeder neuen Beobachtung aktualisiert/angepasst wird.