Лекция 2.1 - Softmax

preview_player
Показать описание
Рекомендации по теме
Комментарии
Автор

"Сейчас я допишу бесконечный ряд и отпущу вас на перемену.." 😊

IvanTsarevich
Автор

Спасибо за данный курс лекций! На русских просторах, без преувеличений, это лучший разбор нейронных сетей.
Наткнулся на Вас случайно, изучая нейронные сети на Хабре. Теперь планирую так же просмотреть Ваш более новый курс "Deep learning на пальцах".

АлексейЕвгеньевич-лу
Автор

Таймкоды:
0:00 - Начало
0:43 - Повторение (Линейный классификатор, градиентный спуск)
2:41 - Loss-function (свойства, какой должна быть)
8:52 - Принцип максимального правдоподобия
14:03 - Вопросы (не было)
15:16 - Softmax
23:54 - Объединение loss-функции и softmax
26:00 - Дополнительная литература
27:54 - Вопросы

leoromanovich
Автор

15:35 Что в данном примере является сэмплами? Какие-то картинки/их векторное представление из нашего изначального набора? Если да, то по какому признаку они располагаются на поверхности нормального распределения?

ЛиляИсхакова-лш
Автор

Не понял почему на 13:30 формула для Negative Log-likelihood называется кросс-энтропией. Смущает, что в кросс-энтропии должно быть еще умножение на y: y*log(p(c=yi|xi)

LordKSAsk
Автор

Я правильно понимаю, что мы можем применить ln (p (data)) - потому что ln - это монотонное преобразование и оно не меняет задачу максимизации? И, в принципе, мы можем применять любые удобные нам монотонные преобразования для p(data)? А ln берём как самый удобный в вычислительном плане?

mephistotel
Автор

Правильно ли я понимаю, что p(data) есть произведение вероятностей (которые посчитала наша модель) для правильного (заданного в датасете) класса для каждого сэмпла (элемента в датасете)? Т. е. если брать до преобразования в вероятность, то это просто перемножение элементов (с индексом правильного класса; один элемент для каждого вектора) результирующих векторов. Если это так, то для меня это было не совсем очевидно. Т. е. такое предположение появилось сразу, но волшебных слов, которые бы превратили предположение в уверенность, я для себя не услышал. Возможно, стоило сделать маленький пример рассчёта на трёх сэмплах с тремя фичами.
В любом случае спасибо за классное разжёвывание.

Mohenti
Автор

Подскажите пожалуйста где найти задания. Перешел по ссылке на github, но не могу скачать файл с заданием. Это означает, что курс уже завершен и я не могу получить к нему доступ или просто необходимо выполнить какие-то доп условия (например получить специальное приглашение или вступить в какое-то сообщество)

ЕгорПопович-щп
Автор

Вопрос. Как я понял, в начале X - это одна картинка, который разделен на пиксели, и их 3072. А затем что из себя представляют весы w, и почему их 3072*10?

Диванныйстратег
Автор

hello, what is softmax derivative please ?

(for calculating diagrant descent of my output)

muslapute
Автор

А можно ссылку на подсчет производной?

zuenko