Лекция 12. Boosting. Gradient boosting machine. Ключевые параметры модели

preview_player
Показать описание

Boosting. Gradient boosting machine. Ключевые параметры модели.
Лекция №12 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов
Рекомендации по теме
Комментарии
Автор

Я поражен. Видел десятки объяснений метода максимального правдоподобия. Но это самое понятное.
Вы мой проводник по миру машинного обучения.
Огромное вам спасибо, Вадим Леонардович!

ukrosaur
Автор

Спасибо за объяснение философии метода максимального правдоподобия, после нескольких лет я наконец понял откуда он берется 😤

icanfast
Автор

00:31:05 Метод максимального праводоподобия

zhandosa
Автор

Здравствуйте! Не до конца понял как разница между фактическим значением отклика и предсказанным может быть любым числом в каком то промежутке, в задаче классификации. Ведь если на выходе f1 для какого то наблюдения получаем 1, а на деле там 0, то разве разница не 1(по модулю)? Или это работает только в случае бинарной классификации.

sabbraxcaddabra
Автор

Существуют ли какие-то общие принципы оценки репрезентативности выборки? Как прикинуть ее сбалансированность и как это прикидка будет зависеть от объема данных? Или это все экспертные оценки аналитика и общего подхода в таких вещах нет?

ztuwfnr
Автор

Жаль, что notebook с этой лекцией нет на сайте.

MinisterDorado
Автор

Вадим Леонардович, не могли бы вы объяснить, в чем смысл выборки валидации и чего мы хотим достичь с её помощью?

qdurvpx
Автор

жаль что в прикрепленных файлах нет ноубука, там только 3 пдф статьи, было бы здорово создать репозиторий курса на гитхаб

nwdxfjs
Автор

@Вадим Аббакумов, а где вы преподаете?

dronorange
Автор

Немного неясно в части GBN. Получили мы f1, f2, ...fn. А итоговый предсказанный Y - это сума результатов по всем f ? То есть, итоговый предсказанный Y = f1(x) + f2(x)+...+fn(x) ?

igorigor
Автор

Здравствуйте Вадим Леонардович,
Большое спасибо Вам за Ваши материалы. На 1:02:48 вы начинаете рассказывать о пользе того, что ответ может быть не знаю. Т.е. Вы получаете 3 класса - 1, 0, не знаю. Но в каких случаях это необходимо? Ведь классификатор всегда создаётся под конкретную задачу с новыми данными. Какой смысл в том, чтобы получить для новых данных ответ “не знаю”?
Рассмотрим на примере конкретного кейса. В течении месяца во все отделения некоего банка поступило 2000 заявок на оформление кредита. Надо достаточно точно сказать, кому кредит может быть оформлен, а кому нет. Какой смысл в том, чтобы аналитик сказал: Вот этим 20% мы кредит оформить можем, вот этим 20% ни в коем случае. А вот про эти 60% (между прочим 1200 заявок) я сказать вообще ничего не могу.
Если банк не хочет рисковать, то ведь можно просто поднять threshold и просто сказать, что кредит одобряем только тем, у кого МИНИМУМ 0.8 надёжности (это значение может вариироваться. И какой смысл в классе “не знаю”?

quantumwalk