Multi-head Attention

preview_player
Показать описание


Рекомендации по теме
Комментарии
Автор

Eres el mejor tio, menos mal existes, das mucha luz🎉

snorfyl
Автор

Holà no entiendo muy bien la parte Cuando dividimos o (multiplicamos) por nb_head.
En el articulo tenemos : Qi = Q*Wqi.
Entonces porque multiplicar la dimension

redone