Involvierte Definitionen
:Veranstaltung
: EMLReferenz
:
⠀
Definition: RetinaNet
Erstmal nur ein Stub.
Definition: Feature Pyramid im RetinaNet
Die Feature Pyramid im RetinaNet enthält Inputs aus den drei obersten Blöcken des ResNets: C3, C4 und C5.
Diese Blöcke werden zunächst mithilfe einer
-Convolution auf die richtige Größe gebracht. Anschließend werden mittels der Pyramide neue Feature Maps erstellt:
- P3 ergibt sich als 3x3-Convolution aus der Summe von C3 und C4 (nach der 1x1-Convolution und Upsampling von C4),
- P4 ergibt sich als 3x3-Convolution aus der Summe von C4 und C5 (nach der 1x1-Convolution und Upsampling von C5),
- P5 ergibt sich als 3x3-Convolution aus C5 (nach der 1x1-Convolution),
- P6 ergibt sich als 3x3-Convolution (mit Stride 2) aus C5 (ohne 1x1-Convolution),
- P7 ergibt sich als 3x3-Convolution aus P6 (nach einer ReLU).
Definition: Regressions-Heads im RetinaNet
Die Regression-Heads erhalten jeweils eine Featuremap aus dem FPN (also P3, …, P7) als Input - in der Illustration des Heads ist das der erste grüne Layer.
Anschließend gibt es 4 Conv-Layer (die for-loop im Code), die von einem letzten, fünften Conv Layer abgeschlossen werden, der die entsprechenden Outputs generiert.