Лекция 4 - Нейронные сети на практике

preview_player
Показать описание
Рекомендации по теме
Комментарии
Автор

Спасибо за данный курс лекций! На русских просторах, без преувеличений, это лучший разбор нейронных сетей.
Наткнулся на Вас случайно, изучая нейронные сети на Хабре. Теперь планирую так же просмотреть Ваш более новый курс "Deep learning на пальцах".

АлексейЕвгеньевич-лу
Автор

В формуле standard deviation (5:20) опечатка: корень квадратный касается и знаменателя.
Курс крутой, спасибо!

artursaakyan
Автор

Спасибо большое за Ваши лекции и проделанную работу! Все очень интересно и доступно.
Хотелось бы добавить по поводу Vanishing Gradient. В русскоязычной литературе я встречал его перевод как "затухание градиента". Возможно, кому-нибудь пригодится :)

pik
Автор

Early stopping = "Не учи учёного"

bmax
Автор

Таймлайны:
0:37 - О прошлой лекции (Общая схема тренировки)
2:35 - Погружение в детали (что будет в лекции):
3:10 - Подготовка данных (нормализация сдвига и масштаба)
7:05 - Активационная функция, инициализация весов, вспомогательные слои
8:41 - Активационные функции и затухающие градиенты (tahn, ReLU)
16:11 - Вопросы
19:50 - Проблема инициализации весов (Xavier, He initializations)
27:26 - Вопросы
28:07 - Batch normalization
36:50 - Вопросы (и продолжение Batch norm)
41:24 - Overfitting (переобучение сети)
46:50 - Регуляризация (L2, Dropout)
58:11 - Процесс оптимизации с помощью градиентного спуска (SGD, Momentum, Adagrad, RMSProp, Adam)
1:11:06 - Процесс тренировки (Learning rate)
1:20:12 - Вопросы
1:21:17 - Как интерпретировать графики обучения и искать гипертпараметры
1:32:00 - Ансамбли моделей
1:34:36 - Краткий гайдлайн по обучению нейронный сетей и вопросы

leoromanovich
Автор

Спасибо за видео и вашу работу! Поделитесь пожалуйста ссылочкой на 3ью лекцию

andriifadieiev
Автор

Используется ли Batch Normalization в рекуррентных нейронных сетях? ведь статистика батча заключена во временых шагах (что по вертикали, а не горизонатали батча)
и еще если мы делим хотим во время обучения сравнивать датасет для тренировки и валидационный сет, когда мы делаем forward на валидационном, нужно ли отключать dropout слои?

koylrust
Автор

Добрый день, спасибо большое за предоставленный курс!! Все хорошо объясняете, жалко не хватает практических задач, для закрепления материала. На хабре есть практика, но там уже готовое решение и это не так полезно, лучше самому разбираться и приходить к решению, так лучше усваиваться..))
У меня возник вопрос: на 33 минуте(Batch Normalization), вы обсуждаете, что хорошая идея просто взять и нормализовать минибатч и так делать для всех батчей. но! если мы будем нормализовать каждый батч отдельно от другого (новые mean и std), то для каждого батча будет свои коэффициенты для нормализации => у нас будут больше какие то случайные величины на вход... есть какое то объяснение, почему это корректно делать и то что мы не получим мусор на выходе?

saidarramazanov
Автор

Спасибо за лекцию, есть такой вопрос возможно прослушал, хотел уточнить как именно производится стохастический градиентный спуск? 1) мы разбиваем исходные данные на партии равного размера (batch, кроме может последней) и по очереди делаем forward с каждой партией. 2) или же делим на партии и отправляем не по очереди, а предварительно перемешав наши партии (batch'и) ?

koylrust
Автор

Еще один вопрос (=x ), если мы тренируем по 5 батчей, на выходе (после 1 батча) мы должны получить 5 ошибок или же 1 усредненную, а также во время обратного распротранения мы вычисляем производную по функции ошибка для каждого элемента батча верно?

koylrust
Автор

Я, конечно, всё понимаю, но что ReLU - нелинейная, я не понимаю. y=x - где тут нелинейность?

MikeMenshikov