Konstrukte:
- Transformer
Generalisierungen:
- Self-Attention
Involvierte Definitionen:
- Embedding
Veranstaltung: EML
Referenz: @sanderson2024

⠀

Definition: Multi-Head Self-Attention

Als Multi-Head Self-Attention bezeichnen wir einen Layer-Typen neuronaler Netze, der aus mehreren parallelen Self-Attention Schichten mit jeweils eigenen trainierbaren Query-, Key- und Value-Matrizen besteht.

Das Update eines Embeddings ergibt sich hierbei jedoch als Summe aller vorgeschlagenen Änderungen . Sei die Anzahl aller Tokens. Sei die Anzahl aller Attention-Heads. Dann gilt:

/vault

Definition - Multi-Head Self-Attention

⠀

Graph View

Mentioned in