filmov
tv
PYTHON SKLEARN PRE-PROCESSING + PIPELINE (22/30)

Показать описание
0:00 Intro
00:43 Data preprocessing
02:56 Transformer Sklearn
05:37 Encodage Ordinal
10:13 Encodage One-Hot
11:19 Sparse Matrix
15:44 Normalisation MinMax
19:27 Standardisation
22:41 RobustScaler
24:20 PolynomialFeatures
27:00 Discretisation
29:00 Pipelines
Petit résumé :
Le preprocessing est important pour améliorer la qualité de nos données avant leur passage dans la machine. Pour ca sklearn ont développé un objet appelé transformer. Son rôle est de transformer nos données de façon cohérente, en appliquant sur les données du testset la même fonction de transformation qui a servie a traiter les données du trainset.
Pour ca, les transformers disposent d'une méthode fit(X_train) et d'une méthode transform(X_test), un peu comme les estimateurs disposent d'une méthode fit(X_train, y_train) et d'une méthode predict(X_test)
Parmi les opération de preprocessing les plus populaires, on retrouve :
L'Encodage : LabelEncoder, OrdinalEncoder, LabelBinarizer, et OneHotEncoder
La Normalisation : MinMaxScaler, StandardScaler, RobustScaler
la Création de polynômes : PolynomialFeatures
la Discretisation : Binarizer, KBinDiscretizer
les transformations non-linéaires : PowerTransform, QuantileTransform
La classe Pipeline de sklearn permet d'assembler plusieurs transformers avec un estimateur, formant ainsi un estimateur composite. GridSearchCV vous permet ensuite de trouver les meilleurs paramètres de votre pipeline.
► Me soutenir financierement sur Tipeee (et obtenir des vidéos BONUS)
► REJOINS NOTRE COMMUNAUTÉ DISCORD
► MON SITE INTERNET:
► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:
► Téléchargez gratuitement mes codes sur github:
► Qui suis-je ?
Je suis Guillaume Saint-Cirgue, Senior Data Scientist avec plus de 8 ans d’expérience dans les secteurs de la tech, l’aviation, la robotique, l’énergie, et les usines connectées.
En 2019, j’ai créé Machine Learnia dans le but de partager mes connaissances dans le domaine de l’intelligence artificielle. Mon objectif est d’expliquer en détail le fonctionnement du Machine Learning et de ses algorithmes, tout en rendant ces concepts accessibles à tous.
Je suis convaincu qu'il ne suffit pas de survoler l'aspect mathématique de ce domaine; il est essentiel de s'y plonger en profondeur pour se démarquer. Cette approche a déjà convaincu plus de 150 000 personnes, et ceux que je forme aujourd'hui comptent parmi les meilleurs du secteur.
Комментарии