Definition: Residual Block

Sei die durch ein neuronales Netzwerk im -ten Layer berechnete Funktion.

Als residual Verbindung (auch Residual Layer oder Residual Block) bezeichnen wir

Die residual Verbindung ist also ein Zusatz zu der eigentlichen Layer-Funktion , der nur darin besteht, den ursprünglichen Input zu dem Output der Layer-Funktion hinzuzuaddieren.

Die Idee ist, dass die “Residualfunktion” einfacher zu lernen ist als die Funktion .

Anmerkung

Konkatenation statt Addition?

Statt hinzuzuaddieren, können wir uns auch dazu entscheiden, ihn bspw. an das Ergebnis von zu konkatenieren.

Verbindung zu dem Vanishing Gradient Problem

Gerade zu Beginn des Trainings, wenn die Gewichte noch nah an den Initialwerten liegt, sorgt die Addition von dafür, dass Informationen über die Input Daten nicht vollständig (durch die Multiplikationen mit den ungelernten Gewichten) verloren gehen.

Außerdem ist

Durch die Additivität kann der Gradient ebenfalls Layer überspringen. So gelangen Informationen aus den unteren Layern unverfälschter zu den oberen Layern.

Identitäts vs. Conv-Blöcke

Residual Blöcke kommen in zwei Geschmacksrichtungen als Identity Block und als Downsampling Block.

Während die Identity Blöcke tatsächlich nur eine Addition durchführen, werden für die Downsampling Blöcke Convolutions mit einem Stride durchgeführt.