PYTHON SKLEARN PRE-PROCESSING + PIPELINE (22/30)

Показать описание

0:00 Intro
00:43 Data preprocessing
02:56 Transformer Sklearn
05:37 Encodage Ordinal
10:13 Encodage One-Hot
11:19 Sparse Matrix
15:44 Normalisation MinMax
19:27 Standardisation
22:41 RobustScaler
24:20 PolynomialFeatures
27:00 Discretisation
29:00 Pipelines

Petit résumé :

Le preprocessing est important pour améliorer la qualité de nos données avant leur passage dans la machine. Pour ca sklearn ont développé un objet appelé transformer. Son rôle est de transformer nos données de façon cohérente, en appliquant sur les données du testset la même fonction de transformation qui a servie a traiter les données du trainset.
Pour ca, les transformers disposent d'une méthode fit(X_train) et d'une méthode transform(X_test), un peu comme les estimateurs disposent d'une méthode fit(X_train, y_train) et d'une méthode predict(X_test)

Parmi les opération de preprocessing les plus populaires, on retrouve :

L'Encodage : LabelEncoder, OrdinalEncoder, LabelBinarizer, et OneHotEncoder
La Normalisation : MinMaxScaler, StandardScaler, RobustScaler
la Création de polynômes : PolynomialFeatures
la Discretisation : Binarizer, KBinDiscretizer
les transformations non-linéaires : PowerTransform, QuantileTransform

La classe Pipeline de sklearn permet d'assembler plusieurs transformers avec un estimateur, formant ainsi un estimateur composite. GridSearchCV vous permet ensuite de trouver les meilleurs paramètres de votre pipeline.

► Me soutenir financierement sur Tipeee (et obtenir des vidéos BONUS)

► REJOINS NOTRE COMMUNAUTÉ DISCORD

► MON SITE INTERNET:

► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:

► Téléchargez gratuitement mes codes sur github:

► Qui suis-je ?
Je suis Guillaume Saint-Cirgue, Senior Data Scientist avec plus de 8 ans d’expérience dans les secteurs de la tech, l’aviation, la robotique, l’énergie, et les usines connectées.

En 2019, j’ai créé Machine Learnia dans le but de partager mes connaissances dans le domaine de l’intelligence artificielle. Mon objectif est d’expliquer en détail le fonctionnement du Machine Learning et de ses algorithmes, tout en rendant ces concepts accessibles à tous.

Je suis convaincu qu'il ne suffit pas de survoler l'aspect mathématique de ce domaine; il est essentiel de s'y plonger en profondeur pour se démarquer. Cette approche a déjà convaincu plus de 150 000 personnes, et ceux que je forme aujourd'hui comptent parmi les meilleurs du secteur.

Рекомендации по теме

Комментарии

il nous faudrait plus de professeur comme vous, très bonne pédagogie pour enseigner les sciences (math, physique, informatique), nos enfants ne sont pas aider, heureusement qu'il existe des personnes passionnées comme vous pour faire ce type de cours en vidéo. Pour ma part, je suis ingénieur en Mécanique et maintenance (gestion de projet) et j'y trouve en grand intérêt à suivre vos vidéos.

johnnydelloue

J'en suis à ma 28ème vidéo de ta chaîne en 2 jours. J'ai beau avoir passé le certificat IBM Data Science sur Coursera, il y a un paquet de trucs qui restaient flous. J'aimerais détruire le bouton like tellement tes explications sont claires et concises - c'est devenu un jeu d'enfant. Je m'attaque pour le moment à un algo génétique, j'espère que dans le futur tu pourras couvrir cette discipline passionnante. En attendant, 1000x MERCI pour ton boulot incroyable 🙏 Toutes les formations devraient renvoyer vers ton contenu - il est imbattable niveau pédagogie 😊 Je te souhaite tout le meilleur !

alessandroperta

En un seul mot : Parfait ! Merci mille fois, Guillaume, pour ton énergie à nous communiquer ta passion.

vivouprince

Merci Monsieur Guillaume,
Pour la première fois je peux avoir un porsantage de 100% xD.
Mon code:
model = make_pipeline(PolynomialFeatures(),
StandardScaler(),

#model
params = {
'polynomialfeatures__degree': np.arange(1, 7),
[True, False],
'standardscaler__copy': [True, False],
'sgdclassifier__penalty': ['L1', 'L2']
}

grid = GridSearchCV(model, param_grid=params, cv=4)

grid.fit(X_train, y_train)

best_model = grid.best_estimator_
y_pred = best_model.predict(X_test)
confusion_matrix(y_test, y_pred)

Mohamed-Maghrebi

c'est en regardant et en écumant les autres vidéos et les autres chaines qu'on peut se rendre compte de ta facilité de vulgarisation, bien joué, et encore merci

samiotmani

Salut Guillaume,

Quelle joie de voir la chaîne reprendre de plus belle pour l'année 2020. Cette vidéo a du être le résultat d'un travail monstrueux d'écriture et de montage et ce travail (dans mon cas) paye: Sklearn comporte tellement de fonction, de module, .... que j’étais littéralement perdu dans son utilisation. Ces 37 minutes sur sklearn ont mis de l'ordre dans ma vision du module et du preprocessing en général (souvent peu abordé sur d'autres chaines de ML). Je t'en remercie.

Je trouve particulièrement satisfaisant les moments où, quelques choses qui nous apparaît comme complexe, devient d'un coup parfaitement intelligible.En cela je dois dire que, Machine Learnia est une chaîne particulièrement satisfaisante ;)!

Merci pour la qualité de ton travail :D

julienjacquemont

Je passe juste pour dire que la newsletter est top !
Première fois que j'en lis une à 100% et avec plaisir ;)
Je regarderai la vidéo ce soir :o

risiboule

Merci merci .. Tu m'as donné l'envie d'étuder

rofaidamerdji

sincerement, monsieur Guillaume Saint-Cirgue, je te donne un truc, tu sera meilleur prof en web, you're the best teacher.

fardirahani

Excellente vidéo, je suis stupéfaite par vos explications minutieuses et en même temps concises !! Après avoir parcouru dizaines de vidéos en anglais, qui m'ont rendu plus confuse qu'à l'inverse, avec cette vidéo, tout devient claire ! Merci pour ce beau travail !!

jingqingcheng

Waouh c'est super bien fait je comprends facilement. J'ai fait plusieurs formations certifiantes mais en tombant sur tes vidéos j'ai mieux compris ce que je codais. Je ne fais plus du copier coller, maintenant je sais ce que je fais. Merci beaucoup

penielmmen

Excellente vidéo, merci infiniment, don con peut dire que l'étape numéro 1 dans la vie d'un Data scientist est après avoir collecter les donné appliquer les transformations adéquates aux donnée avant de les passer à la machine.
Merci infiniment.
Cordialement.

mohammed_yazidcherifi

Bonjour,
vous faites des videos Youtube certainement par passion et autres...
Mais vous n'avez pas idée de l'aide que vous apportez à des personnes qui retrouvent bloquées dans leurs études, projets, recherches et autres.
Un simple MERCI ce n'est certainement pas assez au regard du travail fourni, mais j'espère qu'en précisant qu'il vient du fond du coeur, vous saurez lui attribuer une meilleure portée.

MERCI!

bigo

merci beaucoup je reviens souvant à tes videos ce sont une mine d'or en information

saralagab

AH mon professeur favoris est de retour Welcome.! Alors la super vidéo très très très instructifs du contenue clair. Je sens que l'étendue de mon ignorance(erreur) se minimise au fur et à mesure que l'on évolue avec les notions(optimisation) à une vitesse d'apprentissage considérable. J'ai très apprécié la fin de la vidéo punch très énorme <Donc retenez bien le preprocessing c'est la clé de la réussite CROYEZ MOI>. Super impatient pour la suite et Merci pour ton travail.

ulrichkarlodjo

Je fais pas souvent de commentaire, mais ici, je pouvais pas passer sans dire merci. Super clair et concis, vraiment au top cette vidéo !!!

jawadboujida

Bon retour parmi nous ! Au passage bon heureuse année toi comme d'ab belle vidéo !!

madaragrothendieckottchiwa

Milles merci !! C'est remarquable tout ce que tu offres dans tes vidéos! Encore MERCI !

Alierx

c'est vraiment un très bon récap.Merci

aymenessouyah

Cette video est ma preferee de toute la serie...chapeau

aloualassane

PYTHON SKLEARN PRE-PROCESSING + PIPELINE (22/30)

PYTHON SKLEARN PRE-PROCESSING + PIPELINE (22/30)

Professional Preprocessing with Pipelines in Python

Using Scikit-Learn Pipelines for Data Preprocessing with Python

Understanding Pipeline in Machine Learning with Scikit-learn (sklearn pipeline)

One Hot Encoder with Python Machine Learning (Scikit-Learn)

Implementing Machine Learninng Pipelines USsing Sklearn And Python

Scikit-Learn Model Pipeline Tutorial

Building a Machine Learning Pipeline with Python and Scikit-Learn | Step-by-Step Tutorial

Creating Pipelines Using SKlearn| Machine Learning

Scikit Learn Tutorial | Scikit-Learn Workflow | Data Preprocessing In Machine Learning | Intellipaat

Scikit-learn Crash Course - Machine Learning Library for Python

5.6 Scikit-learn Pipelines (L05: Machine Learning with Scikit-Learn)

Data Preprocessing 06: One Hot Encoding python | Scikit Learn | Machine Learning

Use Pipeline to chain together multiple steps

Using sklearn's GridSearchCV with Pipeline for Hyperparameter Tuning in Machine Learning

Visualizing Data Scaling Techniques using Sklearn Preprocessing in Python

Using Pipeline for Preprocessing (Employee Termination Prediction) - Data Every Day #191

Constructing Machine Learning Pipelines using Scikit-learn | DataHour by Anuj Dhoundiyal

How do I encode categorical features using scikit-learn?

Creating Pipelines Using SKlearn- Machine Learning Tutorial

Hands-on Scikit-learn for Machine Learning: Processing Pipelines with Scikit-learn|packtpub.com

Preprocessing and Pipelines | Supervised Machine Learning with scikit-learn

Simplify Data Preprocessing with Python's Column Transformer: A Step-by-Step Guide

Data Preprocessing 01: StandardScaler Machine Learning | Scikit Learn | Sklearn | Python |