Глубинное обучение. Оптимизация для глубинного обучения. Школа анализа данных, Яндекс

preview_player
Показать описание
Рассматриваются основные алгоритмы для оптимизации функций потерь в глубинном обучении, а именно стохастический пакетный градиентный спуск и его модификации. Особое внимание уделяется градиентному спуску с моментом. Обсуждается так же пакетная нормализация (batch normalization).
Рекомендации по теме
Комментарии
Автор

очень необычный подход, на 01:03:20, перед объяснением того как работает BN ввести другой слой и назвать его "toy BN", подразумевая что студенты уже знают что такое BN. Не представляю как без знания того что делает BN понять как под знаком суммы оказались w_2 и w_1. Имхо, как минимум нужно оговориться, что нормируются не входы В СЕТЬ, а входы В ТЕКУЩИЙ СЛОЙ. ну и не очень ясно, какое отношение эта выдуманная функция w1*w2*w3*w4 имеет к реальным задачам. Для вашей функции у нас, конечно, получилось что разница между весами в 5 порядков нам не помешала, но к реальности, как мне кажется, это не имеет никакого отношения. Но спасибо за попытку придумать объяснение лучше чем то, что BN просто почему-то работает и дать какую-то интуицию.

brsch