/vault

❯

Reinforcement Learning

❯

Theorem - Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie konvergiert

Theorem - Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie konvergiert

Jun 10, 20247 min read

Involvierte Definitionen:
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 4.1.3)

⠀

Theorem: Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie konvergiert

Sei ein Markov-Entscheidungsprozess.

Dann gilt für alle und :

Graph View

Mentioned in

No mentions found

Made by Malte Zietlow using Quartz v4.3.1 © 2026

Home
🔬 GitHub
⚙️ LinkedIn