Multi-head Attention

preview_player

Показать описание

Рекомендации по теме

Комментарии

Eres el mejor tio, menos mal existes, das mucha luz🎉

snorfyl

Holà no entiendo muy bien la parte Cuando dividimos o (multiplicamos) por nb_head.
En el articulo tenemos : Qi = Q*Wqi.
Entonces porque multiplicar la dimension

redone