Algorithmus: Epsilon-Greedy Q-Learning

Als -Greedy Q-Learning bezeichnen wir einen Algorithmus des Reinforcement Learnings zum Lernen einer optimalen Strategie.

Der Algorithmus wählt in jedem Schritt - auf Basis einer neuen Beobachtung - eine Aktion für einen Agenten aus.


Sei der Lernparameter.
Sei initial für alle .

Eingabe: Beobachtung ( für ).
Ausgabe: Aktion


if then

if then
return

Mit Wahrscheinlichkeit , return zufällige Aktion
Mit Wahrscheinlichkeit , return
(oder return , falls ).

Anmerkung

Lernparameter

Häufig wird der Lernparameter nicht konstant gewählt, sondern nimmt mit Anzahl der Beobachtungen ab.

Eine gängige Wahl für ist beispielsweise , wobei die Anzahl der bisherigen Beobachtungen sei.

Konvergenz des Q-Learnings

Ein Nachteil des Q-Learnings ist, dass es deutlich langsamer gegen die optimale Strategie konvergiert als der ADP-Algorithmus.

Dafür ist der Algorithmus jedoch auch simpler und benötigt weniger Speicherplatz.