Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.3.2)
⠀
Algorithmus: Epsilon-Greedy ADP
Als
-Greedy ADP (kurz für Adaptive dynamische Programmierung mit -Greedy-Erweiterung) bezeichnen wir einen Algorithmus des Reinforcement Learnings zum Lernen einer optimalen Strategie. Der Algorithmus wählt in jedem Schritt - auf Basis einer neuen Beobachtung - eine Aktion für einen Agenten aus.
Eingabe: Beobachtung
( für ).
Ausgabe: Aktion
ifthen
if
then
return Mit Wahrscheinlichkeit
, return zufällige Aktion
Mit Wahrscheinlichkeit, return
(oder return, falls ).
Wobei
und zwei mit initialisierte “Zählfunktionen” und und beispielsweise die beiden Teilschritte des VI-Algorithmus seien.