ДЕРЕВО РЕШЕНИЙ (DecisionTreeClassifier) | МАШИННОЕ ОБУЧЕНИЕ

preview_player
Показать описание

Курсы на платформе Stepik:

Вопросы, на которые найдем ответы в этом видео:
Что такое дерево решений?
Как дерево решений обучается?
Какой функционал качества в дереве решений?

0:00 Вводная
0:25 Датасет на сегодня

1:29 Что такое дерево решений простым языком
2:26 Обучение DecisionTreeClassifier из sklearn'a
2:42 Визуализация дерева решений
2:49 Узел, нода, вершина в дереве решений
3:02 Разбиение в дереве решений
3:19 Листы (конечный узел) в дереве решений
3:50 Резюме по структуре дерева решений

4:05 Какие вопросы задает дерево решений
4:36 Какие вопросы нельзя задавать в дереве решений
4:51 Продолжаем искать вопросы

6:17 Функционал качества в дереве решений
6:22 Прирост информации Information gain
7:36 Критерий информативности в дереве решений
7:55 Критерий информативности Энтропия
8:21 Критерий информативности Джини
8:39 В чем смысл энтропии в дереве решений

9:17 Подсчет энтропии в исходной выборке
10:17 Разбиение данных на две подвыборки
10:26 Подсчет энтропии в левой выборке
11:01 Подсчет энтропии в правой выборке
11:44 Подсчет прироста информации первого вопроса
12:28 Подсчет прироста информации второго вопроса
13:56 Резюме подсчете прироста информации по вопросам

14:31 Как еще можно искать вопросы в дереве

15:39 Процесс построения дерева решений

17:29 Где практиковаться по дереву решений

18:36 Резюме занятия

Рекомендации по теме
Комментарии
Автор

Милая девушка, спасибо тебе огромное человеческое!❤ Пересмотрела кучу видео про деревья решений и заблудилась в этом случайном лесу😂😂😂 так толком и не поняв, что куда отсеивается) хотя применяю на стажировке эти алгоритмы, но хочу докапаться до сути, чтобы разобраться, как можно улучшить качество классификации).

newglory
Автор

Очень понятное объяснение, спасибо большое

Alulisa
Автор

Спасибо большое, всегда с нетерпением жду видео. Планируете серию разборов алгоритмов, например SVM(SVC, SVR), KNN?

АртёмКомарницкий-яь
Автор

На 12:03 энтропия правой выборки 0, в формулу вычисления Q подставляется 1. ошибка?

achmedzhanov_nail
Автор

Здравствуйте. Я немного не догоняю, почему в формуле прироста информации энтропия правой подвыбоки =1, если мы посчитали ее =0, ведь там все единицы, абсолютный порядок. Почему тогда в формулу мы вводим ее как 1 и еще нормируем 2/5*1 ? (это на 12 й мнуте) При этом итог получается правильным 0.419 однако )))

alexanderluzhetskii
Автор

Я только не понял на 12:23 почему энтропия правой выборки внезапно стала равна 1 в формуле прироста информации?

Борисыч-вм
Автор

17:16 Почему разбиение было на [0, 3] и [1, 1], разве не лучше было бы на [0, 4] и [1, 0]? Может ли не быть такого вопроса, который отделял бы только эту единственную запись?

mb
Автор

А если не задавать random_state, то чем обусловлено различие точности обученной модели, если обучать ее на одних и тех же данных, и проверять результат тоже на одинаковых данных?

danyadetunm
Автор

Большое спасибо за видео. Я правильно понял, что алгоритм считает IG по всем значениям фичей, кроме тех, которые не позволяют разбить на две подвыборки?

gobals
Автор

Очень интересно по технике, но есть вопрос по сути. Для чего в принципе составляется это дерево решений? Ищется какое-то оптимальное значение? То есть какая изначально задача? Спасибо.

LS-ohpo
Автор

Подскажите, как работает алгоритм с категориальными данными?

ДмитрийСвидовый
Автор

Допустим у нас есть задача идентификации человека по его фотографии. С точки зрения машинного обучения - это задача многоклассовой классификации изображений. При этом, в тестовой выборке могут содержаться изображения людей, которых не было в обучающем наборе и такие фотографии нужно как-то браковать. В случае с логистической/softmax регрессией - можно задать порог по принадлежности объекта тестовой выборки к классам обучающей. В случае с ближайшими соседями, этим порогом будет являться расстояние между объектами. А что будет является порогом для дерева?)

mrhiesenberg