Bewiesen durch
:Konstrukte/Folgerungen
:Generalisierungen
:Involvierte Definitionen
:Veranstaltung
:Referenz
: @thimm2024 (Abschnitt 5.1.4)
⠀
Theorem: Rekursive Berechnung der partiellen Ableitung bezüglich eines Gewichts
Sei
ein gelabelter Datensatz.
Sei ein Neuronales Netzwerk gegeben mit
Schichten, - jeweils
Neuronen pro Schicht und - Gewichten
, wobei . Sei
der Fehler zwischen dem Label und der Vorhersage für ein Beispiel . Wir erhalten die partielle Ableitung von
bezüglich des Gewichtes zwischen
- dem
-ten Neuron der -ten Schicht und - dem
-ten Neuron der -ten Schicht, - also
für ein Beispiel
rekursiv durch wobei
und für den Basisfall (Output Layer,
)
Beweis
Abweichende Schreibweise
Da wir in dem Theorem Berechnung der partiellen Ableitung bezüglich eines Gewichts bereits die Schreibweise von Grant Sandersons genutzt haben, und dieses Theorem stark darauf aufbaut, nutzen wir auch hier Sandersons Schreibweise.
In dem Theorem Berechnung der partiellen Ableitung bezüglich eines Gewichts haben wir bereits gesehen, dass wir die Ableitung für ein beliebiges Gewicht
Leider ist nicht nur die Darstellung sondern auch die Berechnung dieses Ausdrucks überaus komplex. Müsste diese Berechnung für jedes Gewicht durchgeführt werden, wären Neuronale Netze keine geeigneten Modelle.
Glücklicherweise können wir die Summe vereinfachen. Auch müssen wir viele Terme nur ein einziges Mal berechnen, denn der Teil
ist unabhängig von
Vereinfachung durch -Funktion
Um die Darstellung zu vereinfachen, definieren wir nun:
So reduziert sich der Ausdruck auf:
Betrachten wir noch kurz
Für den Einfluss von
Rekursive -Funktion
Die Berechnung der
Sei
Sei
Sei
Für
Rekursiv gilt also für alle
Für den Basisfall
Betrachten wir jetzt noch die beiden Ableitungen
Wir erhalten also
Durch Anpassung der Schreibweise von Grant Sandersons an unsere Schreibweise ergibt sich
was zu zeigen war.