DL2022: Нейронные сети (часть 1)

preview_player
Показать описание
Курс "Глубокое обучение (Deep Learning)"

В этой лекции...
Простейшая нейросеть – 1 нейрон
Функции активации
(линейная, пороговая, сигмоида, гиперболический тангенс, softmax)
Функциональная выразимость нейрона
Теорема об универсальной аппроксимации
Сеть прямого распространения
Рекомендации по теме
Комментарии
Автор

На 5:57 нужно домножать не на exp(z), а на exp(z/2), тогда получается softmax(z/2, -z/2). Получается сигмоида выдаёт значения вероятностей ближе к 0.5, чем softmax.

mhlrfvv
Автор

Александр, здравствуйте

Вы комментировали ответ на вопрос о том, почему не стоит использовать полиномиальные функции активации (таймкод 23:12)


Я правильно понимаю, что это утверждение про полином степени не выше, чем 3, нужно «добить»?

То есть, наша сеть пытается восстановить функцию, которую, как известно, можно с определенной точностью приблизить к полиному k степени. Утверждение в том, что мы задаём k, поэтому 2-слойная сеть выдаст нам полином степени <= k. Если мы заранее задали точность, то, казалось бы, опираясь на неё, можно подобрать оптимальное k.

Но здесь возникает другая история - если мы это k пытаемся наращивать, вписываем в функцию активации уже полином степени 4, 5, 10, 20 и тд, то натыкаемся на проблему с затуханием градиента (для значений < 1) или наоборот - взрывом (для значений > 1).

Проблема ведь как раз состоит в вычислительной сложности и опасности бед с градиентами?

Или я упускаю какую-то деталь, которая позволила бы подучить полный ответ на этот вопрос?

vladislavvorobyev
Автор

Александр Геннадьевич, здравствуйте! В лекции (26:50) вы делаете допущение о нулевом смещении при линейных операциях внутри сети. Можете подсказать почему делается это допущение или где можно почитать, чтобы разобраться в этом вопросе?

andreib