DL2022: Нейронные сети (часть 1)

Показать описание

Курс "Глубокое обучение (Deep Learning)"

В этой лекции...
Простейшая нейросеть – 1 нейрон
Функции активации
(линейная, пороговая, сигмоида, гиперболический тангенс, softmax)
Функциональная выразимость нейрона
Теорема об универсальной аппроксимации
Сеть прямого распространения

Рекомендации по теме

Комментарии

На 5:57 нужно домножать не на exp(z), а на exp(z/2), тогда получается softmax(z/2, -z/2). Получается сигмоида выдаёт значения вероятностей ближе к 0.5, чем softmax.

mhlrfvv

Александр, здравствуйте

Вы комментировали ответ на вопрос о том, почему не стоит использовать полиномиальные функции активации (таймкод 23:12)

Я правильно понимаю, что это утверждение про полином степени не выше, чем 3, нужно «добить»?

То есть, наша сеть пытается восстановить функцию, которую, как известно, можно с определенной точностью приблизить к полиному k степени. Утверждение в том, что мы задаём k, поэтому 2-слойная сеть выдаст нам полином степени <= k. Если мы заранее задали точность, то, казалось бы, опираясь на неё, можно подобрать оптимальное k.

Но здесь возникает другая история - если мы это k пытаемся наращивать, вписываем в функцию активации уже полином степени 4, 5, 10, 20 и тд, то натыкаемся на проблему с затуханием градиента (для значений < 1) или наоборот - взрывом (для значений > 1).

Проблема ведь как раз состоит в вычислительной сложности и опасности бед с градиентами?

Или я упускаю какую-то деталь, которая позволила бы подучить полный ответ на этот вопрос?

vladislavvorobyev

Александр Геннадьевич, здравствуйте! В лекции (26:50) вы делаете допущение о нулевом смещении при линейных операциях внутри сети. Можете подсказать почему делается это допущение или где можно почитать, чтобы разобраться в этом вопросе?

andreib

DL2022: Нейронные сети (часть 1)

DL2022: Нейронные сети (часть 1)

DL2022: Архитектуры свёрточных нейронных сетей, часть 1 – чемпионы ImageNet и их «родственники»...

DL2022: Нейронные сети (часть 2)

DL2022: Визуализация нейронных сетей и генерация изображений (часть 1)...

DL2022: Свёрточные нейронные сети

DL2022: Вводная лекция (часть 1)

DL2022: Рекуррентные нейросети (часть 1)

DL2022: Борьба с переобучением в нейронных сетях (часть 2)

Нейронные сети. Практика 1.

DL2022: Генеративные состязательные сети, часть 1

Нейронные сети. Лекция 1 - пример нейронной сети, основы работы, примеры датасетов...

Лекция 5. Генеративные сети, часть 1

Как нейронная сеть распознает текст? Лекция 1 по Advanced Computer Vision...

DL2022: Pytorch (часть 1)

Лекция. Сверточные нейронные сети

Екатерина Кондратьева | Нейронные сети на снимках МРТ мозга...

Введение в нейронные сети. Часть 2. Механизм обратного распространения ошибки...

Путь через искусственный интеллект и нейронные сети

DL2022: Трансформер (часть 1)

DL2022: Вариационный автокодировщик, часть 1

Глубинное обучение 1, лекция 7 - рекуррентные нейронные сети...

DL2022: Обучение без учителя, часть 1

DL2022: Векторные представления слов и текстов (часть 1)

DL2022: Визуализация нейронных сетей и генерация изображений (часть 2)...