/vault

❯

Reinforcement Learning

❯

Theorem - Rekursive Charakterisierung des optimalen Zustandsnutzens

Theorem - Rekursive Charakterisierung des optimalen Zustandsnutzens

Jul 12, 20247 min read

Generalisierungen:
- Rekursive Charakterisierung des Zustandsnutzens bezüglich einer Strategie
Typen:
- Bellmann-Update
Konstrukte/Folgerungen:
- Value-Iteration Algorithmus
Involvierte Definitionen:
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 4.1.2)

⠀

Theorem: Rekursive Charakterisierung des optimalen Zustandsnutzens

Sei ein Markov-Entscheidungsprozess.

Mit der Bellmann-Gleichung (bzw. der rekursiven Charakterisierung des optimalen Zustandsnutzens) gilt:

Der optimale Nutzen von entspricht also der Summe der Belohnung und des optimalen Nutzens des erwarteten Folgezustands.

Graph View

Mentioned in

Algorithmus - Policy Iteration
Algorithmus - Value-Iteration
Definition - Optimaler Zustandsnutzen
Proposition - Charakterisierung der optimalen Strategie durch den Zustandsnutzen
Theorem - Bellmann-Update
Theorem - Rekursive Charakterisierung des Zustandsnutzens bezüglich einer Strategie

Made by Malte Zietlow using Quartz v4.3.1 © 2026

Home
🔬 GitHub
⚙️ LinkedIn