Definition: Masked Autoencoder (MAE)

Als Masked Autoencoder (kurz MAE) bezeichnen wir eine Denoising Autoencoder-Architektur, die als Encoder/Decoder-Netzwerke jeweils Vision Transformer (ViT) nutzt.

Die Bildeingaben werden zunächst wie in ViT in kleinere “Patches” zerlegt. Anschließend wird ein Großteil der Patches (75%) “maskiert”. Die maskierten Patches werden nicht an den ViT-Encoder weitergereicht.

Der ViT-Decoder enthält anschließend die so angereicherten Bild-Vektoren, sowie die maskierten Patches, in der richtigen Reihenfolge.

Der Decoder wird darauf trainiert, das ursprüngliche Bild vorherzusagen.

Anmerkung

Asymmetrischer AE

MAE ist ein Asymmetrischer Autoencoder. Der Encoder erhält nur die unmaskierten Patches. Der Decoder ist deutlich weniger Komplex als der Encoder.