Konstrukte:
- RetinaNet
Involvierte Definitionen:
Veranstaltung: EML
Referenz: @murphy2022 (P. 487 f.)

⠀

Definition: Ankerboxen

Bei der Objekterkennung wissen wir im voraus noch nicht, wie viele Objekte und an welcher Stelle innerhalb des Bildes sie sich befinden werden.

Ein einfaches Vorgehen zur Lösung des Problems bilden Ankerboxen. Hierzu werden zunächst gleichmäßig über das Bild verteilte Anker bestimmt. Anschließend werden Boxen in verschiedenen Größen und mit verschiedenen Seitenverhältnissen um diese Anker gelegt:

¹

Die Aufgabe des Modells ist es nun, für jede Ankerbox folgende Werte zu berechnen:

die Wahrscheinlichkeit, dass sich ein Objekt in der Box befindet,

die Klasse des Objektes,

ein Offset nach oben, unten, links und rechts, um geringfügig von den Maßen der Ankerbox abweichen zu können.

Seien die Höhe, Breite und Anzahl der Kanäle (bspw. RGB) des Bildes.
Sei die Anzahl der Ankerboxen in jede Richtung und damit die Anzahl aller Ankerboxen.
Sei die Anzahl Klassen.

Abstrakt betrachten wir also eine durch parametrisierte Funktion:

wobei:

: die Pixelwerte des Bildes.

: Die Wahrscheinlichkeit, dass sich in der jeweiligen Ankerbox ein Objekt befindet.

: Die Klasse des Objektes in der jeweiligen Ankerbox.

: Das Offset für die jeweilige Ankerbox.

@murphy2022 (Figure 14.27) ↩

/vault

Definition - Anchor Boxes

⠀

Graph View

Mentioned in

/vault

Definition - Anchor Boxes

⠀

Footnotes

Graph View

Mentioned in