Definition: Exploration-Exploitation-Dilemma

Als Exploration-Exploitation-Dilemma bezeichnen wir ein fundamentales Problem des Reinforcement Learnings, wenn der zugrundeliegende Markov-Entscheidungsprozess unbekannt ist.

Dabei steht ein Agent vor der Herausforderung, zwischen zwei Strategien abzuwägen:

  • Exploration: Der Agent probiert neue Aktionen aus, um mehr Informationen über die Umgebung sowie die Konsequenzen seiner Aktionen zu sammeln und neue, nutzbringende Aktionen zu identifizieren.

  • Exploitation: Der Agent nutzt bereits bekannte Aktionen mit dem höchsten erwarteten Nutzen aus, um den Gewinn zu maximieren.

Das Dilemma besteht darin, dass zu viel Exploration suboptimal ist, weil der Agent nicht die besten bekannten Aktionen ausnutzt.

Andererseits ist auch zu viel Exploitation suboptimal sein, da der Agent die bestmöglichen Aktionen so eventuell gar nicht erst entdeckt.

Eine Balance zwischen Exploration und Exploitation ist notwendig, um eine optimale Langzeitstrategie zu entwickeln.

Anmerkung

Umgang mit dem Exploration-Exploitation-Dilemma

Um das Exploration-Exploitation-Dilemma zu lösen wird in der Regal auf Meta-Strategien zurückgegriffen, die unter bestimmen Voraussetzungen von der (bisher angenäherten) optimalen Strategie abzuweichen.

Ein Beispiel für solche Meta-Strategien ist das -Greedy-Learning