Theorem: Policy Iteration konvergiert gegen die optimale Strategie

Sei beliebig.
Sei wie im Policy Iteration-Algorithmus definiert durch:

Dann gilt: