/vault

❯

❯

Dec 28, 20248 min read

Algorithmus - Policy Iteration
Definition - Approximierter Zustandsnutzen bezüglich einer Strategie
Definition - TD-Berechnung des Zustandsnutzens bezüglich einer Strategie
Definition - Zustandsnutzen bezüglich einer Strategie
Theorem - Bellmann-Update konvergiert gegen optimalen Zustandsnutzen
Theorem - Bellmann-Update
Theorem - Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie konvergiert
Theorem - Rekursive Charakterisierung des Zustandsnutzens bezüglich einer Strategie