Definition: 1x1-Conv-Layer

Sei ein Bild mit Dimensionen gegeben:

  • : Anzahl der Channel (bspw. RGB 3),
  • : Höhe und Breite.

Sei ein Conv-Layer mit:

  • Filteranzahl: ,
  • Kernelgröße: ,
  • Padding: ,
  • Stride:

gegeben. Dann entspricht die Dimension des Outputs von

Was passiert genau? Wir betrachten zunächst, was bei einem einzigen Filter passiert:

  • Jeder Pixel eines jeden Input-Channels wird mit einem -Kernel (also einer einzigen Zahl) multipliziert,
  • der -Kernel (also die Zahl) ist für jeden Input-Channel verschieden, innerhalb eines Input-Channels jedoch überall gleich,
  • die so veränderten Input-Channel werden abschließend zusammenaddiert. Pro Filter erhalten wir also ein einziges Bild.

Die folgende Illustration zeigt ganz gut, was passiert:

Haben wir insgesamt Filter, so bekommen wir als Ergebnis ein Bild mit genau Channels.

So können -Conv-Layer genutzt werden, um die Dimensionalität innerhalb des Netzwerks zu verringern (wenn ) oder zu erhöhen (wenn ).

Anmerkung

Wie viele Parameter hat der -Conv-Layer?

Der Layer hat parameter.

  • Für jeden der Filter also:
    • für die Kernel Parameter pro Input-Channel
    • für den Bias-Term