Bewiesen durch
:Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.3.3)
⠀
Algorithmus: Epsilon-Greedy Q-Learning
Als
-Greedy Q-Learning bezeichnen wir einen Algorithmus des Reinforcement Learnings zum Lernen einer optimalen Strategie. Der Algorithmus wählt in jedem Schritt - auf Basis einer neuen Beobachtung - eine Aktion für einen Agenten aus.
Sei
der Lernparameter.
Sei initialfür alle . Eingabe: Beobachtung
( für ).
Ausgabe: Aktion
ifthen
if
then
return Mit Wahrscheinlichkeit
, return zufällige Aktion
Mit Wahrscheinlichkeit, return
(oder return, falls ).
Anmerkung
Lernparameter
Häufig wird der Lernparameter
nicht konstant gewählt, sondern nimmt mit Anzahl der Beobachtungen ab. Eine gängige Wahl für
ist beispielsweise , wobei die Anzahl der bisherigen Beobachtungen sei.
Konvergenz des Q-Learnings
Ein Nachteil des Q-Learnings ist, dass es deutlich langsamer gegen die optimale Strategie konvergiert als der ADP-Algorithmus.
Dafür ist der Algorithmus jedoch auch simpler und benötigt weniger Speicherplatz.