Clustering Método K-Means en Python (ENGLISH SUBTITLES)

preview_player
Показать описание

Si te sirvió el vídeo y deseas apoyarme directamente, te dejo mi cuenta Paypal 😊:

Mis cursos en línea:
======================
- Aplica SQL al Mundo del Data Science
- Creación de Reportes Visuales con RMarkdown

Buy me a coffee

Espero que mis videos te estén siendo de utilidad. Si gustas cooperar por medio de PayPal para poder seguir creando contenido, puedes hacerlo en la página de mi Blog

En un video anterior te hablé acerca de una de las técnicas de Machine Learning no supervisado llamado Clustering Jerárquico, el cuál es útil cuando se tienen menos de 10,000 individuos o elementos a analizar. En este video te mostraré otra de las técnicas de clustering, llamada método de las K-Medias o K-Means.

Una de las ventajas que tiene este método en comparación con el Clustering Jerárquico, es que tiene la capacidad de analizar bases de datos con más de 10,000 individuos. Sin embargo, para llevar a cabo el Método de las K-Medias, es necesario conocer de antemano el número de clusters en los que queremos que divida a los elementos contenidos en la base de datos.

En caso de que no cuentes con esta información, aquí te muestro una técnica llamada “Codo de Jambú” que te ayudará a encontrar el número óptimo de segmentos a formar.

Los archivos que voy utilizando los puedes encontrar en:

Algunos archivos no los encontrarás en el link, ya que se van creando al correr los códigos que vienen en los videos y estos se grabarán en tu computadora.

Si quieres aprender más acerca de este tipo de técnicas, suscríbete a mi canal, en donde estaré subiendo videos de Machine Learning, Estadística y de Matemáticas en general aplicadas a los negocios.

Si conoces a alguna persona a la que le pudiera ser de utilidad esta información, por favor ayúdame a compartirla. Te lo agradeceré muchísimo 😉

#machinelearning #datascience #statistics
Рекомендации по теме
Комментарии
Автор

La mejor explicación en español sobre cómo graficar el codo y los cluster, simplemente la mejor ❤

mauriciolazcano
Автор

Por lejos el mejor canal de ciencia de Datos. Impecable su explicación y claridad.

gonzalozamorano
Автор

Felicitaciones por la explicación paso a paso del método, realmente excelente, lo mejor que he visto hasta ahora, me aclaraste un millon de dudas

jorgeenriquemenesesmendoza
Автор

Tantos tutoriales en internet y este es el primero que de verdad explica desde el cero como hacer esto, mil y un gracias.

ElMilo
Автор

Excelente video. Sin embargo, quiero recomendar un par de cositas en clustering: 1) La métrica WCSS mide la compactación global de todos los grupos o clusters. Sin embargo, esta métrica es poco eficiente para medir la separabilidad entre clusters, lo cual, representa una desventaja considerable. Otro problema de WCSS es que está basado en distancia Euclidiana, donde calcula la distancia entre los puntos que pertenecen a un cluster con partición dura con respecto al centroide de ese cluster, pero ignora que tan correlacionado está los puntos al centro. Por esta razón, desde el año 2010, se han propuesto mejoras del WCSS basado en correlación que permite medir la cantidad de superposición entre clusters. Lo anterior ayuda a mejorar el cálculo de la compactación entre clusters. 2) Es importante mencionar que el K-means es ineficiente para datos con más de 500.000 muestras (comprobado experimentalmente). Para esto, se ha propuesto el mini-batch K-means, que permite agrupar datos con gran cantidad de muestras. 3) Debes mencionar que K-means no es recomendable cuando los datos tiene outliers, debido a que el resultado del agrupamiento no suele ser representativo debido a la presencia de correlaciones intra-clase que afecta la separabilidad entre clusters. 4) Con solo usar WCSS no es suficiente para asegurar la calidad del agrupamiento de datos. En este caso, se requiere del uso de varias métricas de validación interna para clustering que permita asegurar el número apropiado de clusters. Lo anterior, se debe considerar para tener mayor seguridad de la elección del mejor modelo K-means. 5) Recomiendo explorar otras métricas como el índice de Dunn, el índice Davies-Boudin, etc...

javierbotrix
Автор

Rocio, muchas gracias por darnos una explicación tan clara a personas como yo que recién comienzan en este fantástico mundo de Machine Learning y los modelos no Supervisados. Saludos desde Perú.

leonardochavez
Автор

Este es el mejor video de programación que eh visto en mis 6 años de carrera, muchísimas gracias eres una genio.

krikrilord
Автор

Gracias por tus aportes, sinceramente son de muchísimo valor y además de como lo explicas, mil gracias. Ganaste un seguidor +

kalipo
Автор

Eres una genia, me has salvado mi examen, adapte mi base de datos a tú video, tuve que dropear más datos pero al final todo resulto muy bien, muchas gracias por hacer más sencillo el aprendizaje del clustering :D

franciscolara
Автор

Excelente contenido, muy bien explicado. ¡Muchas gracias!

alandanielsanchezsanchez
Автор

de las mejores explicaciones que he visto en muchos años programando

manuru
Автор

Maravillosa explicación. Dios bendiga tu inteligencia Rocío.

boxfire
Автор

que maravilla de vídeo, me encanta como explicas todo paso a paso

agustinharoleon
Автор

Excelente tutorial Rocio!! Me ha servido mucho! Te lo agradezco enormemente! Un abrazo!!!

mauriciocaamano
Автор

Sigue compartiendo contenido Rocío, es muy interesante. Saludos!

raulrubiocastillo
Автор

Wow! Súper detallado!
Muchas gracias por compartir tu conocimiento!

mika
Автор

Muchas gracias, muy buena explicación :D

luisgustavocorderobautista
Автор

Excelente explicación justo estoy usando ese método para un proyecto muchas gracias me ayuda mucho!!!

gersonpereyra
Автор

Muy buena explicación...Gracias por tan excelentes contribuciones..

darwinmena
Автор

Me encanto, super bien explicado y en espanõl fue le éxito total! excelente trabajo

SarriaGarcia