PYTHON SKLEARN - MODEL SELECTION : Train_test_split, Cross Validation, GridSearchCV (21/30)

Показать описание

Ce tutoriel python français vous présente SKLEARN, le meilleur package pour faire du machine learning avec Python.

Avec Sklearn, on peut découper notre Dataset en Train_set et Test_set grâce a la fonction Train_test_split. Cette fonction est très importante et il faut l'utiliser pour chaque projet de machine learning, avant même de développer un modèle avec sklearn. Vous pouvez définir les proportions pour découper votre Dataset avec l'argument test_size = ...

Une fois que vous avez utilisé train_test_split, vous pouvez entrainer votre modele et le valider en utilisant la technique de cross-validation. Le mieux est d'utiliser la class GridSearchCV, mais les fonctions cross_val_score, Validation_curve et Learning_curves sont tres utiles également.

► TIMECODE DE LA VIDÉO:
0:00 Intro
00:39 Train_test_split
04:22 Validation Set
07:05 Cross Validation
09:44 Validation Curve
12:46 GridSearchCV
16:04 Learning Curves
19:26 Exercice du Titanic

► Me soutenir financierement sur Tipeee (et obtenir des vidéos BONUS)

► REJOINS NOTRE COMMUNAUTÉ DISCORD

► MON SITE INTERNET:

► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:

► Téléchargez gratuitement mes codes sur github:

► Qui suis-je ?
Je suis Guillaume Saint-Cirgue, Senior Data Scientist avec plus de 8 ans d’expérience dans les secteurs de la tech, l’aviation, la robotique, l’énergie, et les usines connectées.

En 2019, j’ai créé Machine Learnia dans le but de partager mes connaissances dans le domaine de l’intelligence artificielle. Mon objectif est d’expliquer en détail le fonctionnement du Machine Learning et de ses algorithmes, tout en rendant ces concepts accessibles à tous.

Je suis convaincu qu'il ne suffit pas de survoler l'aspect mathématique de ce domaine; il est essentiel de s'y plonger en profondeur pour se démarquer. Cette approche a déjà convaincu plus de 150 000 personnes, et ceux que je forme aujourd'hui comptent parmi les meilleurs du secteur.

Рекомендации по теме

Комментарии

Bonjour Guillaume, tout d'abord un grand merci pour cette vidéo très instructive ! ça fait plaisir d'avoir des explications aussi claires sur le machine learning ;)
J'ai fait l'exercice du titanic, j'obtiens comme hyperparamètres metric: manhattan, n_neighbors: 17 et weights: distance. Comme meilleur score, j'obtiens 0.783, score que l'on peut améliorer avec plus de données selon les courbes d'apprentissage.

Alexis-gvew

Bonjour Guillaume, je fais une petite pause durant ces cours que je dévore depuis 10 jours. Je ne connaissais ni l'I.A. ni Python. J'arrive encore à m'émerveiller à + de 60 ans ! Je t'envoie un immense merci pour tout ce que tu fais. Et puis il y a un nouveau truc hyper facilitateur quand je bute encore sur la syntaxe : C'est ChatGPT. Il répond à toutes mes questions. Je l'harcèle tellement que je n'ose même plus lui poser de questions, de peur de le déranger 🤪

philippeetasse

La quantité de choses que j'apprends à chaque vidéo qui font pourtant seulement 20 minutes... Bluffant, bravo !

CMik

Merci infiniment pour ces excellentes leçons gratuites qui me sauvent littéralement la vie.
J'ai soit disant des cours de cette matière à l'Université...
Grâce à vous, je comprends tout et je m'entraîne efficacement =)
Merci infiniment.
Votre travail est d'utilité publique !

mrx

Finalement j'ai trouvé mon mentor que j'ai toujours rêver! Tu me fascine, explication claire, simple et concis!!! You are the best One!!!Mon maître j'attends le cour de C++ et java Niveau expert!

eliengandu

Suis devenu avancé en machine learning grâce à toi. Longue vie à toi.

DucDeBoko

Longue vie à toi Guillaume, j'ai appris en 20min ce que j'essaie de comprendre depuis 3 mois. Au top la vidéo, je suis fan :)

HamisBadarou

Super vidéo comme d'habitude.
Pour ce qui est de l'exercice :
Meilleur paramétrage : {'metric': 'manhattan', 'n_neighbors': 17, 'weights': 'distance'}
Meilleur score : 0.7828
L'apprentissage pourrait être amélioré, mais l'expérience n'est pas reproductible.

philippebillet

Vos vidéos me font gagner beaucoup de temps. J'apprends très vite avec vous. Merci Guillaume.

Amadou

Bravo pour votre pédagogie. On sent que vous êtes passionné et que vous aimez transmettre. Merci !👏👏👏

christopheaballea

Mec merci beaucoup je suis étudiant en M1 info et c'est mon cours (en mieux) que tu viens de faire 😍

ppolyon

Vous êtes le meilleur.
Ca devient vraiment facile avec vous

mamadouseydi

On est en fin 2022, je tombe sous ces vidéos géniales, franchement merci beaucoup.
Ma réponse du coup pour les hyperparamètres: {'metric': 'manhattan', 'n_neighbors': 12, 'weights': 'distance'}

tafsirndiour

Mon modèle de prédiction neuronale pense déjà trop souvent avoir bien prédis la qualité de ta vidéo à venir mais se heurte si souvent à tes bon modèles de vidéos optimiser, Tout ce qui ce conçois bien S'énonce très clairement force à toi Guillaume bon boulot

madaragrothendieckottchiwa

Toujours aussi instructif. Un grand merci a toi pour le partage de ton savoir.

kid

Merci Beaucoup, vous êtes mille fois mieux que notre prof de la fac 👏👏👏

zainasadoun-nrqh

Bonjour, Guillaume. L'explication sur les données de validation m'a fait sourire. Elle me fait penser aux projets informatiques en entreprise. De mon expérience c'est exactement la même chose ! Si les développeurs travaillent avec en vue les données des tests d'intégration (= test set) alors le code n'est pas vraiment bon puisque qu'ils développent alors des comportements trop en accord avec ces mêmes données et des bugs sont à prévoir en production. C'est là qu'intervient les tests en validation (souvent faits par le client). Ces tests (validation set) vont alors éprouvés réellement le code afin de savoir si il n'y a pas de bug. Je trouve l'analogie vraiment intéressante.

MrFruxion

Super vidéo, merci Guillaume
Best_params = {'metric': 'manhattan', 'n_neighbors': 9, 'weights': 'distance'}
model.score =0.804

tiohacademy

Super !
Merci !
Tu démontres très bien en quoi Scikit Learn est un outil très puissant !

Je n'imaginais pas qu'on pouvais optimiser à ce point la recherche d’hyper-paramètre.

TheRemiRODRIGUES

Très dense cette vidéo ! J'ai appris beaucoup de choses merci !
Résultats : metric = manhattan, neighbors ~10-25, weights = distance; need more data; score sur le test set ~ 75-85%

quentinpotie

PYTHON SKLEARN - MODEL SELECTION : Train_test_split, Cross Validation, GridSearchCV (21/30)

PYTHON SKLEARN - MODEL SELECTION : Train_test_split, Cross Validation, GridSearchCV (21/30)

Train Test Split with Python Machine Learning (Scikit-Learn)

Scikit-learn Crash Course - Machine Learning Library for Python

Machine Learning Tutorial Python 12 - K Fold Cross Validation

93 Choosing The Right Model For Your Data 3 Classification | Scikit-learn Machine Learning Models

Python Machine learning - Train Test Split - Sklearn

Model Selection with Python: An Introduction to Hyper Parameter Tuning

Why do we split data into train test and validation sets?

Complete Guide to Cross Validation

Machine Learning Tutorial Python - 16: Hyper parameter Tuning (GridSearchCV)

Learn How to Boost Your Python Sklearn Models with GridsearchCV!

Machine Learning Tutorial with Python | Selecting best model in scikit-learn using cross-validation

Feature Selection for Scikit Learn

Machine Learning Tutorial Python - 7: Training and Testing Data

Difference Between fit(), transform(), fit_transform() and predict() methods in Scikit-Learn

Hands-On Machine Learning: Logistic Regression with Python and Scikit-Learn

Custom Machine Learning Models in Python with Scikit-Learn

Multiple Linear Regression in Python - sklearn

How to Build Your First Decision Tree in Python (scikit-learn)

What Is Scikit-Learn | Introduction To Scikit-Learn | Machine Learning Tutorial | Intellipaat

Train, Test, & Validation Sets | How to Train Machine Learning Models (Properly!!!)

#119: Scikit-learn 113: Model Selection 1: Cross-validation (1/3)

K-Fold Cross Validation: Explanation + Tutorial in Python, Scikit-Learn & NumPy

299 - Evaluating sklearn model using KFold cross validation​ in python

299 - Evaluating sklearn model using KFold cross validation in python