Definition: Multi-Head Self-Attention

Als Multi-Head Self-Attention bezeichnen wir einen Layer-Typen neuronaler Netze, der aus mehreren parallelen Self-Attention Schichten mit jeweils eigenen trainierbaren Query-, Key- und Value-Matrizen besteht.

Das Update eines Embeddings ergibt sich hierbei jedoch als Summe aller vorgeschlagenen Änderungen . Sei die Anzahl aller Tokens. Sei die Anzahl aller Attention-Heads. Dann gilt: