Transformer, explained in detail | Igor Kotenkov | NLP Lecture (in Russian)

preview_player
Показать описание


В этой вводной лекции о трансформерах мы рассмотрим базовые понятия, алгоритмы и методы, используемые в современных языковых моделях. Мы начнем с базовых знаний о NLP, поговорим про концепцию векторов и эмбеддингов, их смысле. Затем подробно обсудим ткокенизацию и то, почему она столь важна. Мы разберем архитектуру трансформера, включая FeedForward, SelfAttention, CrossAttetntion, а еще постараемся понять роль позиционного кодирования в моедели и разных регуляризаторов и оптимизаций.

Мы также подробно рассмотрим декодер и маскированный Attention и процедуру обучения таких моделей.

Лекция была прочитана онлайн для сообщества Singularis, и по ходу было сделано 5 пауз для Q&A секиций - вполне возможно, что вопрос, появившийся у вас, будет отвечен в лекции!

Подпишитесь на наш канал, чтобы не пропустить новые видео о машинном обучении и искусственном интеллекте. Не забудьте поставить лайк и поделиться этим видео с друзьями, если оно вам понравилось. Если у вас возникнут вопросы или предложения, оставляйте их в комментариях!

Timeline:
0:00 - 4:10 - Intro
4:10 - 11:41 - NLP 101 (intro for ML Engineers), W2V, Embeddings
11:41 - 15:55 - Tokenization Intuition
15:55 - 23:08 - Tokenization Details and how to build a Vocabulary
23:08 - 28:55 - Why Tokenization matters
28:55 - 36:10 - 1st Q&A
36:10 - 39:58 - Transformer: a 10'000 foot view
39:58 - 45:06 - FeedForward layer
45:06 - 49:19 - 2nd Q&A
49:19 - 1:08:01 - Self-Attention Mechanism in Detail
1:08:01 - 1:14:05 - 3rd Q&A
1:14:05 - 1:20:59 - Multi Head Self-Attention & its Matrix form
1:20:59 - 1:26:55 - Positional Encodings
1:26:55 - 1:32:11 - Transformer Optimizations & Regularizers: LayerNorm, Skip-Connection
1:32:11 - 1:36:31 - 4th Q&A
1:36:31 - 1:43:50 - Decoder & Cross-Attention
1:43:50 - 1:50:30 - Masked Self-Attention & Training Procedure
1:50:30 - 1:53:48 - 5th Q&A
1:53:48 - 2:04:50 - BERT Training: MLM, NSP
2:05:50 - 2:14:19 - Outro: why are Transformers THAT good?
2:14:19 - 2:17:09 - 6th and final Q&A
----
#Трансформеры #Машинноеобучение #Искусственныйинтеллект #NLP #DeepLearning #AI #NeuralNetworks #BERT #AttentionMechanism #NaturalLanguageProcessing #Tokenization #MachineLearningAlgorithms #DataScience #LanguageModels #ML #GPT #OpenAI #MLengineers #WordEmbeddings #PositionalEncoding #LayerNormalization #SkipConnection #CrossAttention #MLM #NSP #chatgpt #attention #attentionisallyouneed
Рекомендации по теме
Комментарии
Автор

Одна из лучших лекций про трансформеры на русском

savostyanov
Автор

Очень-очень понятно, спасибо большое!
Прям большое удовольствие, подробно, детально, с ссылками на статьи, разбором слоев, классно!)

igorgordiy
Автор

Это лучшая лекция, объясняющая трансформеры и то, как они реализуют анализ естественных языков, даже на английском языке я не видел подобной. Огромная благодарность вам, Игорь, за подготовку этих материалов.

linkernick
Автор

Хорошее видео. Так не привычно слушать про эту тему не на английском, а на русском языке. :)

НиколайНовичков-еэ
Автор

Как педагог, очень доходчиво, с рефлексией в изложении всё ок. Респект!

art_nomadi
Автор

Ох Ох какая годнота подъехала!))) А если серьезно спасибо за просветительскую деятельность!

eyvvdln
Автор

1:00:00
Это не "магическая константа", а следует из свойства дисперсии случайной величины:
Var(cX) = c^2 * Var(X)

vmarchenkoff
Автор

24:36 お誕生日おめでとう- Otanjoubi omedetou - Поздравляю с Днем рождения!

alexeysolovyov
Автор

Игорь, спасибо за лекцию! Крайне полезный материал, с отличной подачей! Каждый раз обращаюсь к твоей лекции, перед собесами на секцию NLP) Было бы очень здорово, если бы появились таймкоды. Спасибо!

АнтонРаченко-шс
Автор

Спасибо большое Пожалуй, это самое сложное и интересное в чём мне пришлось разобраться =)

shapovalentine
Автор

как поставить еще лайков...
лекция супер!

vvv-tech
Автор

Игорь, большое спасибо! Сжато, по делу - очень классный формат!

narvispb
Автор

Спасибо, очень насыщенно и понятно ❤ Теперь пойду в HF NLP

chanel
Автор

Ойййй, ойййй, ойййй, КАК Я ДОЛГО ИСКАЛ ЧЕЛОВЕКА, КТО НОРМАЛЬНО БЫ ВСЮ ЭТУ ФИГНЮ С ТРАНСФОРМЕРАМИ БЫ ОБЪЯСНИЛ - ГИГАНСКИЙ РЕСПЕКТ ТЕБЕ!!! Плиз сделай видео о том, как работает GPT и ChatGPT. СПАСИБО.

Автор

Досмотрел, круто. Мысли вслух. Было бы интересно посмотреть как конкретно трансформер сможет выполнять конкретные (простые для человека, но неочевидные для нейронки) задачи по построению предложения. Уже упоминалось в вопросах задача про разное кол-во слов в оригинале и в переводе. Я бы взял например такую задачу: в одном языке определения (красивый) всегда идут после определяемого слова (цветок), в другом всегде до (я нашел красивый цветок vs. ja nashel tsvetok krasivii). Или например если уточнения по времени действия в одном языке (на который надо перевести) всегда идут в начале предложения, потом за ним идут уточнения по месту, а потом уже подлежащее и сказуемое (В 5 часов [время] из дома [место] я выехал). Ну и всякое такое еще придумать. И посмотреть как с помощью механизма attention или еще каких-то конкретно эта задача реализуется. И может придумать какие то хитрые примеры предложений для перевода (м.б. с несуществующими языками, а может и с существующими), которые очевидны человеку, но механизмами этой нейронки в принципе невыполнимы.

CbI
Автор

Супер, даже на английском нет такого уровня.

xaik
Автор

спасибо, круто обяснили! А почему суммируем эмбеддинги а не стекаем? Как будто теряется смысл когда суммируем представления слов, позиций, sentence

mukhtarbimurat
Автор

Игорь, спасибо за разбор темы, очень интересно!))
Где теперь будете трудиться и над чем?

kuzkibk
Автор

0:18 спасибо Семен большое за интродакшн 🤣

Не проще ли говорить «Биг секнкс Семион за интродакшн»

Solalexc
Автор

Получил большое удовольствие, спасибо!
Если можно что-то сделать с микрофоном, было бы очень круто.

matveyshishov