ML: Кластеризация на python. Алгоритм kmeans

preview_player
Показать описание
Добрый день, друзья! В сегодняшнем выпуске видео, я расскажу вам, что такое алгоритм кластеризации К-средних или кmeans.
Вы узнаете для чего он нужен, как применяется, так же на примере проанализируем базу данных покупателей и с помощью алгоритма к-средних, достанем из этих данных полезную информацию.

Алгоритм K-средних начинается с размещения K точек (центроидов) в случайных местах в пространстве. Затем мы выполняем следующие шаги итеративно:
1. Для каждого экземпляра мы назначаем его кластеру с ближайшим центроидом
2. мы перемещаем каждый центроид к среднему значению назначенных ему экземпляров.
3. Алгоритм продолжается до тех пор, пока ни один экземпляр не изменит состав кластера.

Рекомендации по теме
Комментарии
Автор

Шикарные видео по Data Analysis и алгоритмы кластеризации. Отлично объясняешь, хотелось бы больше таких уроков. Спасибо за ваше творчество.

furzaa
Автор

Круто, что с кодом и подробным разбором!
Продолжайте в том же духе, успехов!

artemkoltsa
Автор

Очень хорошее по содержанию Видео и классное музло на заставке ;-) Подписался на Ваш канал. Если Вы не возражаете, то примите пожелание - выкладывайте пожалуйста не только исходные данные но и сам листинг программного кода - мне было бы это очень удобно и сэкономило массу времени

Walter_Sullivan
Автор

Хорошее видео! На скорости x2 можно смотреть

ДанисХ-зш
Автор

Можно ещё было Customer id дропнуть. Спасибо за видос!

ilia_meysak
Автор

Спасибо большое! Очень доступно объяснил.

belitamart
Автор

Очень понятно и доступно!
ньюанс уточнить было бы интересно.
По поводу выбора количества кластеров. Сходу приходит на ум добавить какой то алгоритм анализа, например по количеству в кластерах- то есть если в первую группу попало 1000, а в третью 10, то может нужно больше кластеров, чтобы более равномерно распределялось? Чтобы алгоритм подобрал оптимальное количество кластеров ?

DAROM-TK
Автор

Очень круто! Но надо еще было сказать, на что влияет формула в переменной area - там, если я все правильно понял, можно "наложить" какой-то из параметров кастомера на размер кружка на будущем графике.

dimokru
Автор

Очень нравится подача материала. жалко, что есть косяки, которые касаются теории, а не реализации в Python.

ЛилияТуктамышева-ог
Автор

Непонятно зачем вы стандартизируете данные функцией StandartScaler(), а затем их не используете.

nobody_know
Автор

с помощью KMeans и 3 кластеров, сколько образцов находится в кластере 1?

bakytti
Автор

Хотел про машинное обучение узнать, а узнал, что мне на МРОТ жить..

가여타
Автор

Стандартизированные данные в датафрейме Clus_dataSet, а k_means.fit выполняем по нестандартизированным X. Это ошибка?

viktorsubbota
Автор

Привет! А подскажи где берёшь задания для анализа данных на фрилансе? Спасибо!

ВикторСтарков-гл
Автор

Датасет другой лежит, а как со стринговыми значениями быть в этом датасете? они ведь обозначают автомобили, если их убрать, как тогда понять в каком кластете какой авто

DAROM-TK
Автор

подскажите пожалуйста, а как оценить качество проведенного качественного анализа?

dmytrobilyi
Автор

Здравствуйте алгорит k-means работает ли с данными более 10000 записей?

АкеркеКаирова-рл
Автор

Извините, а можете подсказать, как вы так вывод делаете?

romanberkutov
Автор

Новичку можно обратится за консультацией к эксперту?)

ДмитрийСталь-вх
Автор

Если кто-то занимается статистикой, питоном и любит футбол, то отпишитесь, плиз.

AlisaMusicFM