Data Science пример задачи кредитного скоринга / Урок построения модели ML на python

preview_player
Показать описание


Разбираем задачу по Data Science кредитный скоринг с использованием модели логистической регрессии. Учимся грамотно подходить к разведочному анализу данных EDA, а также обучать модель ML и интерпретировать результаты для бизнеса.

Таймкоды:
00:00 Задача кредитного скоринга
00:25 Что необходимо сделать перед построением модели
00:44 Загрузка данных и предварительный анализ
04:07 Главная фишка EDA анализа!!!!! Как делать EDA?
05:29 Рассматриваем гипотезы
06:13 Анализируем целевую переменную (таргет) / Дисбаланс классов
07:11 Первая гипотеза. Распределение возраста в разрезе таргета (seaborn), нормализуем данные
08:11 Вторая гипотеза. Распределение возраста в разрезе образования / boxplot
10:10 Корреляция признаков
10:30 Третья гипотеза. Анализ зарплат в разрезе таргета / образования
12:33 Feature engineering (генерация фичей), как его делать, какие могут быть новые признаки, что делать с признаком типа дата-время, логарифмирование
15:07 Построение модели машинного обучения. 1 этап - бейзлайн (Logistic Regression)
16:46 Как интерпретировать и использовать метрики precision, recall, roc-auc
17:41 Строим roc-auc curve
18:03 Подбор параметров модели с использованием GridSearch
18:40 Сравниваем результаты на графике roc-auc / анализируем метрики
19:32 Анализ важных признаков после обучения модели
20:02 Используем для анализа важных признаков библиотеку shap / Интерпретирует результаты
22:30 Коэффициенты логистической регрессии
23:27 Сравнение важных признаков в разных классов (визуализация различий)

*Компания Meta - организация, деятельность которой запрещена на территории Российской Федерации

#DataScience #python
Рекомендации по теме
Комментарии
Автор

Спасибо за видео! Круто, что так подробно рассказано про важность EDA, да и вообще за ясность изложения материала. За ноутбук отдельное спасибо!

maksimperapialitsa
Автор

Спасибо, Анастасия!
Побольше бы таких вот прикладных "реальных" кейсов годных.

rrahll
Автор

большое спасибо за детальный разбор, один из лучших что я видела

Mai-flcy
Автор

просто супер разбор и супер канал! давай еще)))) нужно больше разобранных прикладных задач)

hyuser_
Автор

спасибо за разбор и код, было очень познавательно и интересно послушать

msaoc
Автор

Спасибо большое, после паузы в обучении, быстро актуализировался )

ezufzmv
Автор

Крутое полезное видео! Хотим еще видосов о построении моделей с подготовкой данных! Спасибо!

t
Автор

Интересно, можно ли так поставить гипотезы, чтобы выявить перспективные направления бизнеса конкретно в нашем случае. Скорее всего нужно огромное количество данных перелопатить.🧐 Вообще, честно говоря, это всё так интересно, находить закономерности в тонких делах.🤗

MrBolat
Автор

спасибо большое, принцесса. I learn thanks to your classes, take care of yourself💕

miguelchavezgordillo
Автор

Супер) сегодня посмотрел и полностью проделал данную работу! получил новые хорошие инструменты
большое спасибо, Анастасия!

raiszakirdzhanov
Автор

такие вещи решаются программно так как параметров там от силы 200 например На таких данных врятли получится построить анализ
алгоритм принятия решения рисует бизнес
в скоринге популярны bpmn фреймворки

dmitry
Автор

Все linear models включительно logistic regression нуждаются в нормализации данныx (например MinMaxScaler или стандартизации StandardScaler), чтобы избежать проблемы исчезающего градиента на этапе обучения.

vasilvasilev
Автор

В разделе про описательные статистики говорится про проверку гипотез. На деле она осуществляется на глазок, без использования строгих процедур, вроде, например, критерия Вилкоксона и ему подобным. Вопрос - в таких задачах строгие критерии просто не нужны или так сделано исключительно в рамках этого ролика?

nikita__
Автор

Огромное спасибо Анастасии за ее работу. Сразу же извиняюсь на берегу и прошу не счесть за грубость. Единственный момент, - хотел бы указать на небольшую фонетическую ошибку [время 12:35]. Не "фьюче" engineering, а "фиче" engineering. Признаться сам грешу подобным - долгое время называл одну из моих любимых серий видео игр не "сайлент" hill (silent hill), а "сайленс" hill.

KonstantinMedvedev-dwdt
Автор

Спасибо, за интересное видео. ) Не бросайте плиз канал))
Только начинаю входить в эту тему.
Ваш канал очень интересен и вы доходчиво излагаете материал простым языком.
Вижу, аж "Диванные Эксперты" в комментариях на галёрках приоживились и подтянулись ).. аля не концептуально сказали или разъяснили, пытаясь повысить свою диванную значимость без конкретной аргументации.
Ждемс.. новых видео :)
Еще раз спасибо за ваш канал )

dmitriyrayder
Автор

Лайк, единственное: не смог скачать датасет с Каггла - ругается, что могут только приглашенные участники это сделать :(

osvab
Автор

Анастасия, вы очень красивая девушка, которая умеет просто и понятно донести материал)
Пожелание - я бы с радостью посмотрел более подробное видео с бОльшим количеством метрик, даже если бы оно растянулось на час-полтора.

panmichal
Автор

Хочу увидеть реализацию простого примера на питон/нумпай по распознаванию fashion mnist 60k
Реализация на керас посредством простой модели с одним промежуточным слоем даёт прекрасный показатель
А вот ручками онли нумпай не могу реализовать градиентный спуск. Сигмоиду пробовал, гипертангенс не хотить обучаться. Думаю это может многим быть интересно.

RuslanKorchagin
Автор

@miracl6, спасибо за видео! но у меня вопрос: а не нужно ли проверить модель на overfitting, например? а то ми посчитали скоры, но может сама по себе модель не очень хорошая?

qbgwxgm
Автор

Отличное видео, спасибо. А можно по юрлицам все то же самое? )

Cotucini