Tutorial: MANEJO DE DATOS CATEGÓRICOS FALTANTES con Python, Pandas y Scikit-Learn

Показать описание

En este tutorial vamos a ver las principales técnicas para realizar el manejo de datos faltantes cuando los datos que queremos completar son de tipo categórico.

Contenido:
00:00 Introducción
00:37 Academia Online
00:54 El set de datos
09:14 Eliminar filas con datos faltantes
12:11 Eliminar columna con datos faltantes
13:14 Imputar con la categoría más frecuente
16:52 Imputar con Machine Learning
33:22 Conclusión

🔴 *** VISITA WWW.CODIFICANDOBITS.COM ***
En el sitio web encontrarás cursos online así como artículos y material útil de Ciencia de Datos y Machine Learning. También podrán ponerse en contacto conmigo si están interesados en servicios de formación, charlas o asesorías.

🔴 *** VIDEOS RELACIONADOS ***

🔴 *** ÚNETE A CODIFICANDO BITS Y SÍGUEME EN MIS REDES SOCIALES ***

🔴 *** ACERCA DE MÍ ***
Soy Miguel Sotaquirá, el creador de Codificando Bits. Tengo formación como Ingeniero Electrónico, y un Doctorado en Bioingeniería, y desde el año 2017 me he convertido en un apasionado por el Machine Learning y el Data Science, y en la actualidad me dedico por completo a divulgar contenido y a brindar asesoría a personas y empresas sobre estos temas.

🔴 *** ACERCA DE CODIFICANDO BITS ***
El objetivo de Codificando Bits es inspirar y difundir el conocimiento en las áreas de Machine Learning y Data Science.

#machinelearning

Рекомендации по теме

Комментарии

Quiero agradecerte por este increíble video. Realmente me ayudó a entender muchas cosas y me dejó con una perspectiva más clara. Tu habilidad para explicar conceptos es asombrosa. ¡Sigue haciendo este excelente trabajo y compartiendo tu conocimiento! Gracias de nuevo por hacer la diferencia en la vida de tus espectadores. 👏🌟

eduardoramirez

Hola Miguel buenos días. Gracias por entregarnos cada conocimiento. Por favor cuéntenos qué cursos proyecta desarrollar para este resto de año 2023. Gracias.

jaimeluna

Primero que todo excelente explicación, tengo una duda respecto a las variables que se utilizan para entrenar el modelo de predicción, no es necesario primero verificar si las variables numéricas (altura y peso) tienen una alta correlación con la variable categórica (sexo)?, pues si son variables independientes entre si no tendría sentido intentar estimar una en base al valor de las otras, en este caso es obvio que si se correlacionan debido al conocimiento del fenómeno que se está analizando, pero en otros análisis con más variables y relaciones entre ellas no muy obvias si sería un paso necesario?

ML_Wave

Hola que gran trabajo y buena explicación, que pasaría si tengo varias variables categóricas nominales y con datos incompletos en variables numéricas

camilohernandez

Excelente video! Una pregunta: ¿Podrias entregar alguna referencia bibliográfica sobre los modelos de Machine Learning para estudiarlos y así poder decidir cuál modelo se adecúa más en cierto contexto de datos?

Reitero mis felicitaciones por el video, las explicaciones dejan todo clarisimo.

marcelohernandezcaro

Como se puede calcular el promedio de la columna considerando el valor faltando?

franciscomiranda

La Imputación se podría hacer ponderando las variables? Por ejemplo: Ponderados Sexo: Masc=(288/570) * 100 Feme=(282/570) * 100 y luego redistribuyo los 30 NaN en base a estos pesos? Sería válido esto?

robhernandezvl

Hola Miguel, buenas tardes, en el caso del 3º método, no se debería escalar los datos de entrada, ya que la altura y el peso son distintos?, y por otro lado en caso de que haya muchos mas de una clase que de otra, se puede dar que la predicción esté sesgada?

FernandoLopez-vcld

Una pregunta, ¿cómo sabemos que el modelo realmente funciona? Es decir, comprobar que una medida de peso y altura, que pueda llegar a pertenecer a ambos conjuntos de datos (masculino y femenino), realmente este asignada a la categoría adecuada.

orochi

Resumen del video:
1) Si las filas totales de los datos con valores NaN son menor a un 3%, es mejor eliminar la fila problematica.
2) Se elimina la columna problemática sinson pocos datos como en el caso de las filas y además la columna no es relevante para el estudio.
3) Se imputan los datos cuando los valores NaN se mantienen entre un 3% y un 5%.
4) Se aplica Machine learning para imputar datos cuando estos sean entre un 5% y un 12%.
5) Si los valores NaN superan aproximadamente un 12% de los datos totales, puede ser mejor pedir más datos en caso que los hubiese.

diegofonseca

Tutorial: MANEJO DE DATOS CATEGÓRICOS FALTANTES con Python, Pandas y Scikit-Learn

Tutorial: MANEJO DE DATOS CATEGÓRICOS FALTANTES con Python, Pandas y Scikit-Learn

¿Cómo codificar datos categóricos?

Por qué y cómo codificar datos Categóricos Ordinales usando Python con sklearn y pandas

¿Cómo manejar los DATOS FALTANTES?: guía completa

Tipos de datos: Categóricos vs numéricos

Visualización de datos categóricos

Codifica datos categóricos nominales para Machine Learning y Ciencia de Datos con Python

One Hot Encoding hecho fácil: Aprende a codificar tus datos categóricos con Python y Scikit-learn

¿Cómo hacer el ANÁLISIS EXPLORATORIO DE DATOS?: guía paso a paso

Imputación (o Manejo de Datos Faltantes) con Python

Mejora tu Análisis de Datos con Medidas de Centralidad para Datos Categóricos usando Python

IBM SPSS Tutorial Cómo Ingresar Datos

Manejo de datos antes de usarlos en Machine Learning - Ana Ruíz

¿QUÉ ES LA ESTADÍSTICA? Super facil -Para principiantes

Tutorial: LIMPIEZA DE DATOS con Python y Pandas

Aprende cómo realizar Análisis de Datos con SAS. PROC FREQ & PROC MEANS

Obteniendo Estadísticos Descriptivos de Variables Categóricas en Python

Codificar variables categóricas en Excel

Fuentes de Datos que todo Científico de Datos debe conocer: Kaggle y más

Tutorial: ANÁLISIS EXPLORATORIO DE DATOS con Python

Qué son los Datos Desbalanceados y Cómo balancearlos usando Submuestreo y Sobremuestreo con Python

Estadística: elaboración de distribuciones de frecuencias para datos cualitativos en excel

Manejo de variables cualitativas en Excel

Escalamiento, Normalización y Estandarización de Datos con Python para Ciencia de Datos