/vault

❯

Reinforcement Learning

❯

Definition - TD-Berechnung des Zustandsnutzens bezüglich einer Strategie

Definition - TD-Berechnung des Zustandsnutzens bezüglich einer Strategie

Jun 14, 20249 min read

Generalisierungen:
- Zustandsnutzen bezüglich einer Strategie
- Temporal Difference Learning
Involvierte Definitionen:
- Zustandsnutzen bezüglich einer Strategie
- Strategie
- MDP
- siehe auch Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie
- siehe auch Epsilon-Greedy Q-Learning
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 4.2.3)

⠀

Definition: TD-Berechnung des Zustandsnutzens bezüglich einer Strategie

Sei ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Sei eine Strategie.
Sei der Lernparameter.

Mithilfe des TD-Learnings können wir den Zustandsnutzen bezüglich bei jeder neuen Beobachtung aktualisieren durch:

wobei wir initial annehmen, dass .

Anmerkung

Lernparameter

Häufig wird der Lernparameter nicht konstant gewählt, sondern nimmt mit Anzahl der Beobachtungen ab.

Eine gängige Wahl für ist beispielsweise , wobei die Anzahl der bisherigen Beobachtungen sei.

Graph View

Mentioned in

Algorithmus - Epsilon-Greedy Q-Learning
Definition - Passives Reinforcement-Learning
Definition - Temporal Difference Learning
Definition - Zustandsnutzen bezüglich einer Strategie

Made by Malte Zietlow using Quartz v4.3.1 © 2026

Home
🔬 GitHub
⚙️ LinkedIn