Algorithmus: Epsilon-Greedy ADP

Als -Greedy ADP (kurz für Adaptive dynamische Programmierung mit -Greedy-Erweiterung) bezeichnen wir einen Algorithmus des Reinforcement Learnings zum Lernen einer optimalen Strategie.

Der Algorithmus wählt in jedem Schritt - auf Basis einer neuen Beobachtung - eine Aktion für einen Agenten aus.


Eingabe: Beobachtung ( für ).
Ausgabe: Aktion


if then




if then
return

Mit Wahrscheinlichkeit , return zufällige Aktion
Mit Wahrscheinlichkeit , return
(oder return , falls ).


Wobei

  • und zwei mit initialisierte “Zählfunktionen” und
  • und beispielsweise die beiden Teilschritte des VI-Algorithmus seien.