Definition: Exploding Gradient Problem

Beim Training Neuronaler Netze, werden die Gewichte der Layer auf Basis des Gradientenabstiegsverfahrens (nämlich ) aktualisiert.

Beim Exploding Gradient Problem wird der Gradient sehr groß (bis schließlich ). Dadurch sind die Schritte beim Gradientenabstiegsverfahrens sehr groß, dadurch werden lokale Minima “übersprungen” und das Verfahren konvergiert nicht.

Ursachen für das Problem können vielfältig sein, lassen sich jedoch oft zurückführen auf

  • zu große Initialwerte der Gewichte,
  • fehlende Regularisierung der Gewichte,
  • zu hoher Lernparameter ,
  • Tiefe des Netzwerks (große Gradienten werden miteinander multipliziert noch größere Gradienten)