Konstrukte
:Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @sanderson2024
⠀
Definition: Multi-Head Self-Attention
Als Multi-Head Self-Attention bezeichnen wir einen Layer-Typen neuronaler Netze, der aus mehreren parallelen Self-Attention Schichten mit jeweils eigenen trainierbaren Query-, Key- und Value-Matrizen besteht.
Das Update
eines Embeddings ergibt sich hierbei jedoch als Summe aller vorgeschlagenen Änderungen . Sei die Anzahl aller Tokens. Sei die Anzahl aller Attention-Heads. Dann gilt: