Tutorial: MANEJO DE DATOS CATEGÓRICOS FALTANTES con Python, Pandas y Scikit-Learn

preview_player
Показать описание

En este tutorial vamos a ver las principales técnicas para realizar el manejo de datos faltantes cuando los datos que queremos completar son de tipo categórico.

Contenido:
00:00 Introducción
00:37 Academia Online
00:54 El set de datos
09:14 Eliminar filas con datos faltantes
12:11 Eliminar columna con datos faltantes
13:14 Imputar con la categoría más frecuente
16:52 Imputar con Machine Learning
33:22 Conclusión

🔴 *** VISITA WWW.CODIFICANDOBITS.COM ***
En el sitio web encontrarás cursos online así como artículos y material útil de Ciencia de Datos y Machine Learning. También podrán ponerse en contacto conmigo si están interesados en servicios de formación, charlas o asesorías.

🔴 *** VIDEOS RELACIONADOS ***

🔴 *** ÚNETE A CODIFICANDO BITS Y SÍGUEME EN MIS REDES SOCIALES ***

🔴 *** ACERCA DE MÍ ***
Soy Miguel Sotaquirá, el creador de Codificando Bits. Tengo formación como Ingeniero Electrónico, y un Doctorado en Bioingeniería, y desde el año 2017 me he convertido en un apasionado por el Machine Learning y el Data Science, y en la actualidad me dedico por completo a divulgar contenido y a brindar asesoría a personas y empresas sobre estos temas.

🔴 *** ACERCA DE CODIFICANDO BITS ***
El objetivo de Codificando Bits es inspirar y difundir el conocimiento en las áreas de Machine Learning y Data Science.

#machinelearning
Рекомендации по теме
Комментарии
Автор

Quiero agradecerte por este increíble video. Realmente me ayudó a entender muchas cosas y me dejó con una perspectiva más clara. Tu habilidad para explicar conceptos es asombrosa. ¡Sigue haciendo este excelente trabajo y compartiendo tu conocimiento! Gracias de nuevo por hacer la diferencia en la vida de tus espectadores. 👏🌟

eduardoramirez
Автор

Hola Miguel buenos días. Gracias por entregarnos cada conocimiento. Por favor cuéntenos qué cursos proyecta desarrollar para este resto de año 2023. Gracias.

jaimeluna
Автор

Primero que todo excelente explicación, tengo una duda respecto a las variables que se utilizan para entrenar el modelo de predicción, no es necesario primero verificar si las variables numéricas (altura y peso) tienen una alta correlación con la variable categórica (sexo)?, pues si son variables independientes entre si no tendría sentido intentar estimar una en base al valor de las otras, en este caso es obvio que si se correlacionan debido al conocimiento del fenómeno que se está analizando, pero en otros análisis con más variables y relaciones entre ellas no muy obvias si sería un paso necesario?

ML_Wave
Автор

Hola que gran trabajo y buena explicación, que pasaría si tengo varias variables categóricas nominales y con datos incompletos en variables numéricas

camilohernandez
Автор

Excelente video! Una pregunta: ¿Podrias entregar alguna referencia bibliográfica sobre los modelos de Machine Learning para estudiarlos y así poder decidir cuál modelo se adecúa más en cierto contexto de datos?

Reitero mis felicitaciones por el video, las explicaciones dejan todo clarisimo.

marcelohernandezcaro
Автор

Como se puede calcular el promedio de la columna considerando el valor faltando?

franciscomiranda
Автор

La Imputación se podría hacer ponderando las variables? Por ejemplo: Ponderados Sexo: Masc=(288/570) * 100 Feme=(282/570) * 100 y luego redistribuyo los 30 NaN en base a estos pesos? Sería válido esto?

robhernandezvl
Автор

Hola Miguel, buenas tardes, en el caso del 3º método, no se debería escalar los datos de entrada, ya que la altura y el peso son distintos?, y por otro lado en caso de que haya muchos mas de una clase que de otra, se puede dar que la predicción esté sesgada?

FernandoLopez-vcld
Автор

Una pregunta, ¿cómo sabemos que el modelo realmente funciona? Es decir, comprobar que una medida de peso y altura, que pueda llegar a pertenecer a ambos conjuntos de datos (masculino y femenino), realmente este asignada a la categoría adecuada.

orochi
Автор

Resumen del video:
1) Si las filas totales de los datos con valores NaN son menor a un 3%, es mejor eliminar la fila problematica.
2) Se elimina la columna problemática sinson pocos datos como en el caso de las filas y además la columna no es relevante para el estudio.
3) Se imputan los datos cuando los valores NaN se mantienen entre un 3% y un 5%.
4) Se aplica Machine learning para imputar datos cuando estos sean entre un 5% y un 12%.
5) Si los valores NaN superan aproximadamente un 12% de los datos totales, puede ser mejor pedir más datos en caso que los hubiese.

diegofonseca