PYTHON SKLEARN PRE-PROCESSING + PIPELINE (22/30)

preview_player
Показать описание

0:00 Intro
00:43 Data preprocessing
02:56 Transformer Sklearn
05:37 Encodage Ordinal
10:13 Encodage One-Hot
11:19 Sparse Matrix
15:44 Normalisation MinMax
19:27 Standardisation
22:41 RobustScaler
24:20 PolynomialFeatures
27:00 Discretisation
29:00 Pipelines

Petit résumé :

Le preprocessing est important pour améliorer la qualité de nos données avant leur passage dans la machine. Pour ca sklearn ont développé un objet appelé transformer. Son rôle est de transformer nos données de façon cohérente, en appliquant sur les données du testset la même fonction de transformation qui a servie a traiter les données du trainset.
Pour ca, les transformers disposent d'une méthode fit(X_train) et d'une méthode transform(X_test), un peu comme les estimateurs disposent d'une méthode fit(X_train, y_train) et d'une méthode predict(X_test)

Parmi les opération de preprocessing les plus populaires, on retrouve :

L'Encodage : LabelEncoder, OrdinalEncoder, LabelBinarizer, et OneHotEncoder
La Normalisation : MinMaxScaler, StandardScaler, RobustScaler
la Création de polynômes : PolynomialFeatures
la Discretisation : Binarizer, KBinDiscretizer
les transformations non-linéaires : PowerTransform, QuantileTransform

La classe Pipeline de sklearn permet d'assembler plusieurs transformers avec un estimateur, formant ainsi un estimateur composite. GridSearchCV vous permet ensuite de trouver les meilleurs paramètres de votre pipeline.

► Me soutenir financierement sur Tipeee (et obtenir des vidéos BONUS)

► REJOINS NOTRE COMMUNAUTÉ DISCORD

► MON SITE INTERNET:

► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:

► Téléchargez gratuitement mes codes sur github:

► Qui suis-je ?
Je suis Guillaume Saint-Cirgue, Senior Data Scientist avec plus de 8 ans d’expérience dans les secteurs de la tech, l’aviation, la robotique, l’énergie, et les usines connectées.

En 2019, j’ai créé Machine Learnia dans le but de partager mes connaissances dans le domaine de l’intelligence artificielle. Mon objectif est d’expliquer en détail le fonctionnement du Machine Learning et de ses algorithmes, tout en rendant ces concepts accessibles à tous.

Je suis convaincu qu'il ne suffit pas de survoler l'aspect mathématique de ce domaine; il est essentiel de s'y plonger en profondeur pour se démarquer. Cette approche a déjà convaincu plus de 150 000 personnes, et ceux que je forme aujourd'hui comptent parmi les meilleurs du secteur.

Рекомендации по теме
Комментарии
Автор

il nous faudrait plus de professeur comme vous, très bonne pédagogie pour enseigner les sciences (math, physique, informatique), nos enfants ne sont pas aider, heureusement qu'il existe des personnes passionnées comme vous pour faire ce type de cours en vidéo. Pour ma part, je suis ingénieur en Mécanique et maintenance (gestion de projet) et j'y trouve en grand intérêt à suivre vos vidéos.

johnnydelloue
Автор

J'en suis à ma 28ème vidéo de ta chaîne en 2 jours. J'ai beau avoir passé le certificat IBM Data Science sur Coursera, il y a un paquet de trucs qui restaient flous. J'aimerais détruire le bouton like tellement tes explications sont claires et concises - c'est devenu un jeu d'enfant. Je m'attaque pour le moment à un algo génétique, j'espère que dans le futur tu pourras couvrir cette discipline passionnante. En attendant, 1000x MERCI pour ton boulot incroyable 🙏 Toutes les formations devraient renvoyer vers ton contenu - il est imbattable niveau pédagogie 😊 Je te souhaite tout le meilleur !

alessandroperta
Автор

En un seul mot : Parfait ! Merci mille fois, Guillaume, pour ton énergie à nous communiquer ta passion.

vivouprince
Автор

Merci Monsieur Guillaume,
Pour la première fois je peux avoir un porsantage de 100% xD.
Mon code:
model = make_pipeline(PolynomialFeatures(),
StandardScaler(),

#model
params = {
'polynomialfeatures__degree': np.arange(1, 7),
[True, False],
'standardscaler__copy': [True, False],
'sgdclassifier__penalty': ['L1', 'L2']
}

grid = GridSearchCV(model, param_grid=params, cv=4)

grid.fit(X_train, y_train)

best_model = grid.best_estimator_
y_pred = best_model.predict(X_test)
confusion_matrix(y_test, y_pred)

Mohamed-Maghrebi
Автор

c'est en regardant et en écumant les autres vidéos et les autres chaines qu'on peut se rendre compte de ta facilité de vulgarisation, bien joué, et encore merci

samiotmani
Автор

Salut Guillaume,


Quelle joie de voir la chaîne reprendre de plus belle pour l'année 2020. Cette vidéo a du être le résultat d'un travail monstrueux d'écriture et de montage et ce travail (dans mon cas) paye: Sklearn comporte tellement de fonction, de module, .... que j’étais littéralement perdu dans son utilisation. Ces 37 minutes sur sklearn ont mis de l'ordre dans ma vision du module et du preprocessing en général (souvent peu abordé sur d'autres chaines de ML). Je t'en remercie.


Je trouve particulièrement satisfaisant les moments où, quelques choses qui nous apparaît comme complexe, devient d'un coup parfaitement intelligible.En cela je dois dire que, Machine Learnia est une chaîne particulièrement satisfaisante ;)!


Merci pour la qualité de ton travail :D

julienjacquemont
Автор

Je passe juste pour dire que la newsletter est top !
Première fois que j'en lis une à 100% et avec plaisir ;)
Je regarderai la vidéo ce soir :o

risiboule
Автор

Merci merci .. Tu m'as donné l'envie d'étuder

rofaidamerdji
Автор

sincerement, monsieur Guillaume Saint-Cirgue, je te donne un truc, tu sera meilleur prof en web, you're the best teacher.

fardirahani
Автор

Excellente vidéo, je suis stupéfaite par vos explications minutieuses et en même temps concises !! Après avoir parcouru dizaines de vidéos en anglais, qui m'ont rendu plus confuse qu'à l'inverse, avec cette vidéo, tout devient claire ! Merci pour ce beau travail !!

jingqingcheng
Автор

Waouh c'est super bien fait je comprends facilement. J'ai fait plusieurs formations certifiantes mais en tombant sur tes vidéos j'ai mieux compris ce que je codais. Je ne fais plus du copier coller, maintenant je sais ce que je fais. Merci beaucoup

penielmmen
Автор

Excellente vidéo, merci infiniment, don con peut dire que l'étape numéro 1 dans la vie d'un Data scientist est après avoir collecter les donné appliquer les transformations adéquates aux donnée avant de les passer à la machine.
Merci infiniment.
Cordialement.

mohammed_yazidcherifi
Автор

Bonjour,
vous faites des videos Youtube certainement par passion et autres...
Mais vous n'avez pas idée de l'aide que vous apportez à des personnes qui retrouvent bloquées dans leurs études, projets, recherches et autres.
Un simple MERCI ce n'est certainement pas assez au regard du travail fourni, mais j'espère qu'en précisant qu'il vient du fond du coeur, vous saurez lui attribuer une meilleure portée.

MERCI!

bigo
Автор

merci beaucoup je reviens souvant à tes videos ce sont une mine d'or en information

saralagab
Автор

AH mon professeur favoris est de retour Welcome.! Alors la super vidéo très très très instructifs du contenue clair. Je sens que l'étendue de mon ignorance(erreur) se minimise au fur et à mesure que l'on évolue avec les notions(optimisation) à une vitesse d'apprentissage considérable. J'ai très apprécié la fin de la vidéo punch très énorme <Donc retenez bien le preprocessing c'est la clé de la réussite CROYEZ MOI>. Super impatient pour la suite et Merci pour ton travail.

ulrichkarlodjo
Автор

Je fais pas souvent de commentaire, mais ici, je pouvais pas passer sans dire merci. Super clair et concis, vraiment au top cette vidéo !!!

jawadboujida
Автор

Bon retour parmi nous ! Au passage bon heureuse année toi comme d'ab belle vidéo !!

madaragrothendieckottchiwa
Автор

Milles merci !! C'est remarquable tout ce que tu offres dans tes vidéos! Encore MERCI !

Alierx
Автор

c'est vraiment un très bon récap.Merci

aymenessouyah
Автор

Cette video est ma preferee de toute la serie...chapeau

aloualassane