Definition: Feature Pyramid Network

Als Feature Pyramid Network (kurz FPN) bezeichnen wir ein Architekturmuster für neuronale Netzwerke, das Merkmale auf mehreren Auflösungsebenen eines zuvor ausgeführten Grundmodells (i.d.R. das sog. Backbone-CNN) kombiniert, um die Erkennung von Objekten unterschiedlicher Größe zu verbessern.

FPNs bestehen aus einem Bottom-Up-Pfad des Backbone-CNNs zur Merkmalsextraktion und einem Top-Down-Pfad zur Erzeugung angereicherter Feature Maps für die verschiedene Auflösungsebenen.

Der Bottom-Up-Pfad erstellt dabei in jeder Schicht stärker abstrahierte Feature Maps mit jeweils anwachsendem Receptive Field.

Würde man ausschließlich die Feature Maps der letzten Schicht des Bottom-Up-Pfades zur Objekterkennung nutzen, hätte man, so die Intuition, nur noch “globale” Bildinformationen zur Verfügung.

Die Ebenen des Top-Down Pfades haben dabei oft zwei Eingaben:

  • Vorige Schicht: Der Top-Down-Pfad erhält als Input immer die Werte der zuvor berechneten Schicht. Damit die Werte Ausgabe der vorigen Schicht genutzt werden kann, wird sie i.d.R. hochskaliert.
  • Laterale Verbindung (de. seitliche Verbindungen): Die Ebenen des Top-Down-Pfades korrespondieren zu den Ebenen des Bottom-Up-Pfades. Jede Ebene des Top-Down-Pfades erhält zusätzlich das Ergebnis der korrespondierenden Ebene aus dem Bottom-Up-Pfad als Input.

Die jeweiligen Outputs der Ebenen des Top-Down-Pfades werden anschließend für verschiedene Vorhersagen genutzt, bspw. Bounding-Box Koordinaten und zugehörige Klassen-Labels.

In dem Paper von Lin et al.1 werden bspw. jeweils -Pixel Ausschnitte der jeweils produzierten Feature Maps für die Vorhersage von Bounding Boxen unterschiedlicher Größe genutzt:

1

Anmerkung

Laterale Verbindungen und ResNet?

Die lateralen Verbindungen können wir auch als Residual-Verbindungen interpretieren, die die tieferen Ebenen des Bottom-Up- sowie die überliegenden Ebenen des Top-Down-Pfades überspringen.

Footnotes

  1. @lin2017 (Fig. 4) 2