Konstrukte
:Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
:
⠀
Definition: 1x1-Conv-Layer
Sei
ein Bild mit Dimensionen gegeben:
: Anzahl der Channel (bspw. RGB → 3), : Höhe und Breite. Sei
ein Conv-Layer mit:
- Filteranzahl:
, - Kernelgröße:
, - Padding:
, - Stride:
gegeben. Dann entspricht die Dimension des Outputs von
Was passiert genau? Wir betrachten zunächst, was bei einem einzigen Filter passiert:
- Jeder Pixel eines jeden Input-Channels wird mit einem
-Kernel (also einer einzigen Zahl) multipliziert, - der
-Kernel (also die Zahl) ist für jeden Input-Channel verschieden, innerhalb eines Input-Channels jedoch überall gleich, - die so veränderten Input-Channel werden abschließend zusammenaddiert. Pro Filter erhalten wir also ein einziges Bild.
Die folgende Illustration zeigt ganz gut, was passiert:
Haben wir insgesamt
Filter, so bekommen wir als Ergebnis ein Bild mit genau Channels. So können
-Conv-Layer genutzt werden, um die Dimensionalität innerhalb des Netzwerks zu verringern (wenn ) oder zu erhöhen (wenn ).
Anmerkung
Wie viele Parameter hat der
-Conv-Layer? Der Layer hat
parameter.
- Für jeden der
Filter also:
für die Kernel Parameter pro Input-Channel für den Bias-Term