Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 5.3.2)
⠀
Proposition: Probleme beim Training rekurrenter Netzwerke
Da der Berechnungsgraph rekurrenter Netzwerke durch die Nutzung von Hidden States sehr tief werden kann (genau so tief, wie die eingegebene Sequenz lang ist), handelt es sich bei RNNs in der Regel um sehr tiefe Neuronale Netzwerke.
Mit dieser Tiefe gehen zwei Probleme einher:
- Beim Training führt die häufige Multiplikation mit der Gewichtsmatrix
zur Einbindung des Hidden States leicht zu dem Vanishing / Exploding Gradient-Problem. - Bei der Ausführung tendiert das Netzwerk schnell dazu, ältere Informationen zu vergessen. Je älter eine Information, desto häufiger wurde sie mit der Gewichtsmatrix
multipliziert. Sind die Einträge von klein, so haben alte Information schnell gar keinen Einfluss mehr.
Anmerkung
LSTMs?
LSTMs versuchen, diese Probleme zu mitigieren.