Generalisierungen:
- Value Iteration
- Epsilon-Greedy-Learning
Involvierte Definitionen:
- Epsilon-Greedy-Learning
- Value Iteration (hier als VAL und POL)
- Approximierter Zustandsnutzen bezüglich einer Strategie
  - Approximierte Transitionswahrscheinlichkeitsfunktion
  - Approximierte Belohnungsfunktion
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 4.3.2)

⠀

Algorithmus: Epsilon-Greedy ADP

Als -Greedy ADP (kurz für Adaptive dynamische Programmierung mit -Greedy-Erweiterung) bezeichnen wir einen Algorithmus des Reinforcement Learnings zum Lernen einer optimalen Strategie.

Der Algorithmus wählt in jedem Schritt - auf Basis einer neuen Beobachtung - eine Aktion für einen Agenten aus.

Eingabe: Beobachtung ( für ).
Ausgabe: Aktion

if then

if then
return

Mit Wahrscheinlichkeit , return zufällige Aktion
Mit Wahrscheinlichkeit , return
(oder return , falls ).

Wobei

und zwei mit initialisierte “Zählfunktionen” und

und beispielsweise die beiden Teilschritte des VI-Algorithmus seien.

/vault

Algorithmus - Epsilon-Greedy ADP

⠀

Graph View

Mentioned in