Глубокое обучение. Лекция 10. Тонкости обучения и масштабирования нейронных сетей (2019-2020)

preview_player
Показать описание
В рамках лекции рассмотрены следующие способы повышения точности глубоких нейронных сетей:
- Обучение со стохастической глубиной;
- Линейное масштабирование коэффициента обучения;
- Learning Rate Warm-up;
- Cosine Learning Rate Decay;
- Нулевое значение гаммы в Batch Normalization;
- Недобавление смещений в Weight Deay;
- Label Smoothing;
- Mixup Data Augmentation.
Помимо этого рассматривается метод масштабирования нейронных сетей EfficientNet.

Tailor-made AI solutions for unique challenges:

Информация о лекциях:

Телеграм-канал с анонсами лекций и материалами по машинному обучению:
Рекомендации по теме
Комментарии
Автор

Спасибо, огромное, за столь полезную лекцию! Вы даже не представляете, насколько Вы меня воодушевили! Последнюю неделю зашел в тупик, бился об стену. А тут забрезжил свет!
Mixup - это что-то невероятное! Побежал проверять на практике, а вечером займусь просмотром остальных лекций.
И ещё хочется сказать спасибо за отличную подачу материала!

xtnnpwz
Автор

Посмотрел 10 лекций на одном дыхании.
О многих триках слышали с коллегами, но не так подробно и не так понятно. EfficientNet использовался в топовых решениях на Kaggle на соревнованиях Deepfake Detection Challenge.
Очень понравился баланс теории (математики) и практики (инженерии).
Спасибо огромное за отличную подачу и проработку материала!
С нетерпением ждём следующих лекций!

Serg_A
Автор

Спасибо за классную лекцию и разбор статей! :)

ichsmyd
Автор

Очень крутой курс!) Ждем новые лекции)

DrDufl
Автор

По поводу Mixup и CutMix статья на архиве: CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features.
Техники похожие, в обеих смешивают две картинки с разными лэйблами и новый лэйбл получают как срездневзвес исходных — из кота и пса получают новую картинку с лейблом ‘котапёс’.
В CutMix вставляют кроп из одной картинки в другую и лейблы усредняют по площади кропов — в статье показывают прибавку в точности в 2 раза больше, чем MixUp.
Интуиция почему это работает мне кажется может быть следующей: softmax выдаёт вероятности принадлежности к классам. Сетка без Mixup/CutMix может выдать для картинки с котом, например, 0.5 принадлежности к ‘коту’, 0.5 - к ‘собаке’ — непонятно к какому классу отнести картинку. Mixup/CutMix позволяет создать отдельный класс с ‘котапсами’ и сетка тренируется классифицировать таких ‘котапсов’, меньше ошибаясь на реальных котах и собаках.

Serg_A