Proposition: Probleme beim Training rekurrenter Netzwerke

Da der Berechnungsgraph rekurrenter Netzwerke durch die Nutzung von Hidden States sehr tief werden können (genau so tief, wie die eingegebene Sequenz lang ist), handelt es sich bei RNNs in der Regel um sehr tiefe Neuronale Netzwerke.

Mit dieser Tiefe gehen zwei Probleme einher:

  • Beim Training führt die häufige Multiplikation mit der Gewichtsmatrix zur Einbindung des Hidden States leicht zu dem Vanishing / Exploding Gradient-Problem.
  • Bei der Ausführung tendiert das Netzwerk schnell dazu, ältere Informationen zu vergessen. Je älter eine Information, desto häufiger wurde sie mit der Gewichtsmatrix multipliziert. Sind die Einträge von klein, so haben alte Information schnell gar keinen Einfluss mehr.

Anmerkung

LSTMs?

LSTMs versuchen, diese Probleme zu mitigieren.