Konstrukte/Folgerungen:
- Rekursive Charakterisierung des optimalen Zustandsnutzens
- Policy Iteration
Generalisierungen:
- Lineares Gleichungssystem
Hinreichende Bedingungen:
- Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie
Involvierte Definitionen:
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 4.1.3)

⠀

Theorem: Rekursive Charakterisierung des Zustandsnutzens bezüglich einer Strategie

Sei ein Markov-Entscheidungsprozess.
Sei eine Strategie.
Sei der Diskontierungsfaktor.

Mit der rekursiven Charakterisierung des Zustandsnutzens bezüglich einer Strategie (auch Bellmann-Gleichung des Zustandsnutzens bezüglich einer Strategie) gilt:

Der Nutzen von bezüglich der Strategie entspricht also der Summe der Belohnung und des Nutzens aller möglichen Folgezustände bezüglich , gewichtet nach der Wahrscheinlichkeit ebendieses Folgezustandes.

/vault

Theorem - Rekursive Charakterisierung des Zustandsnutzens bezüglich einer Strategie

⠀

Graph View

Mentioned in