Theorem: Rekursive Berechnung der partiellen Ableitung bezüglich eines Gewichts

Sei ein gelabelter Datensatz.
Sei ein Neuronales Netzwerk gegeben mit

  • Schichten,
  • jeweils Neuronen pro Schicht und
  • Gewichten , wobei .

Sei der Fehler zwischen dem Label und der Vorhersage für ein Beispiel .

Wir erhalten die partielle Ableitung von bezüglich des Gewichtes zwischen

  • dem -ten Neuron der -ten Schicht und
  • dem -ten Neuron der -ten Schicht,
  • also

für ein Beispiel rekursiv durch

wobei

und für den Basisfall (Output Layer, )

Beweis

Abweichende Schreibweise

Da wir in dem Theorem Berechnung der partiellen Ableitung bezüglich eines Gewichts bereits die Schreibweise von Grant Sandersons genutzt haben, und dieses Theorem stark darauf aufbaut, nutzen wir auch hier Sandersons Schreibweise.

In dem Theorem Berechnung der partiellen Ableitung bezüglich eines Gewichts haben wir bereits gesehen, dass wir die Ableitung für ein beliebiges Gewicht in einem beliebigen Layer durch die Summe aller möglichen Einflüsse auf die nachfolgenden Schichten erhalten:

Leider ist nicht nur die Darstellung sondern auch die Berechnung dieses Ausdrucks überaus komplex. Müsste diese Berechnung für jedes Gewicht durchgeführt werden, wären Neuronale Netze keine geeigneten Modelle.

Glücklicherweise können wir die Summe vereinfachen. Auch müssen wir viele Terme nur ein einziges Mal berechnen, denn der Teil

ist unabhängig von und , kann also zwischen vielen Berechnungen geteilt werden.

Vereinfachung durch -Funktion

Um die Darstellung zu vereinfachen, definieren wir nun:

So reduziert sich der Ausdruck auf:

Betrachten wir noch kurz . Es gilt:

Für den Einfluss von auf die Kostenfunktion gilt also

Rekursive -Funktion

Die Berechnung der Funktion ist weiterhin sehr komplex. Betrachten wir sie noch einmal im Detail für ein paar konkrete Ausprägungen.

Sei . Dann gilt:

Sei . Dann gilt:

Sei . Dann gilt:

Für gilt nach dem selben Schema:

Rekursiv gilt also für alle mit :

Für den Basisfall gilt:

Betrachten wir jetzt noch die beiden Ableitungen und für den Fall :

Wir erhalten also

Durch Anpassung der Schreibweise von Grant Sandersons an unsere Schreibweise ergibt sich

was zu zeigen war.