Definition: Markov-Entscheidungsprozess

Als Markov-Entscheidungsprozess (en. Markov Decision Process, kurz MDP) bezeichnen wir die Markovkette:

wobei:

  • : Zustandsraum
  • : Aktionsraum
  • : Transitionswahrscheinlichkeitsfunktion
  • : Belohnungsfunktion (en. reward function)
  • : Startzustand
  • : Menge der Zielzustände

formalisiert die Handlungen eines Agenten in einer Umgebung. Dabei startet in dem Zustand und terminiert, sobald der Agent einen Zustand aus erreicht.