PYTHON SKLEARN - MODEL SELECTION : Train_test_split, Cross Validation, GridSearchCV (21/30)

preview_player
Показать описание
Ce tutoriel python français vous présente SKLEARN, le meilleur package pour faire du machine learning avec Python.

Avec Sklearn, on peut découper notre Dataset en Train_set et Test_set grâce a la fonction Train_test_split. Cette fonction est très importante et il faut l'utiliser pour chaque projet de machine learning, avant même de développer un modèle avec sklearn. Vous pouvez définir les proportions pour découper votre Dataset avec l'argument test_size = ...

Une fois que vous avez utilisé train_test_split, vous pouvez entrainer votre modele et le valider en utilisant la technique de cross-validation. Le mieux est d'utiliser la class GridSearchCV, mais les fonctions cross_val_score, Validation_curve et Learning_curves sont tres utiles également.

► TIMECODE DE LA VIDÉO:
0:00 Intro
00:39 Train_test_split
04:22 Validation Set
07:05 Cross Validation
09:44 Validation Curve
12:46 GridSearchCV
16:04 Learning Curves
19:26 Exercice du Titanic

► Me soutenir financierement sur Tipeee (et obtenir des vidéos BONUS)

► REJOINS NOTRE COMMUNAUTÉ DISCORD

► MON SITE INTERNET:

► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:

► Téléchargez gratuitement mes codes sur github:

► Qui suis-je ?
Je suis Guillaume Saint-Cirgue, Senior Data Scientist avec plus de 8 ans d’expérience dans les secteurs de la tech, l’aviation, la robotique, l’énergie, et les usines connectées.

En 2019, j’ai créé Machine Learnia dans le but de partager mes connaissances dans le domaine de l’intelligence artificielle. Mon objectif est d’expliquer en détail le fonctionnement du Machine Learning et de ses algorithmes, tout en rendant ces concepts accessibles à tous.

Je suis convaincu qu'il ne suffit pas de survoler l'aspect mathématique de ce domaine; il est essentiel de s'y plonger en profondeur pour se démarquer. Cette approche a déjà convaincu plus de 150 000 personnes, et ceux que je forme aujourd'hui comptent parmi les meilleurs du secteur.

Рекомендации по теме
Комментарии
Автор

Bonjour Guillaume, tout d'abord un grand merci pour cette vidéo très instructive ! ça fait plaisir d'avoir des explications aussi claires sur le machine learning ;)
J'ai fait l'exercice du titanic, j'obtiens comme hyperparamètres metric: manhattan, n_neighbors: 17 et weights: distance. Comme meilleur score, j'obtiens 0.783, score que l'on peut améliorer avec plus de données selon les courbes d'apprentissage.

Alexis-gvew
Автор

Bonjour Guillaume, je fais une petite pause durant ces cours que je dévore depuis 10 jours. Je ne connaissais ni l'I.A. ni Python. J'arrive encore à m'émerveiller à + de 60 ans ! Je t'envoie un immense merci pour tout ce que tu fais. Et puis il y a un nouveau truc hyper facilitateur quand je bute encore sur la syntaxe : C'est ChatGPT. Il répond à toutes mes questions. Je l'harcèle tellement que je n'ose même plus lui poser de questions, de peur de le déranger 🤪

philippeetasse
Автор

La quantité de choses que j'apprends à chaque vidéo qui font pourtant seulement 20 minutes... Bluffant, bravo !

CMik
Автор

Merci infiniment pour ces excellentes leçons gratuites qui me sauvent littéralement la vie.
J'ai soit disant des cours de cette matière à l'Université...
Grâce à vous, je comprends tout et je m'entraîne efficacement =)
Merci infiniment.
Votre travail est d'utilité publique !

mrx
Автор

Finalement j'ai trouvé mon mentor que j'ai toujours rêver! Tu me fascine, explication claire, simple et concis!!! You are the best One!!!Mon maître j'attends le cour de C++ et java Niveau expert!

eliengandu
Автор

Suis devenu avancé en machine learning grâce à toi. Longue vie à toi.

DucDeBoko
Автор

Longue vie à toi Guillaume, j'ai appris en 20min ce que j'essaie de comprendre depuis 3 mois. Au top la vidéo, je suis fan :)

HamisBadarou
Автор

Super vidéo comme d'habitude.
Pour ce qui est de l'exercice :
Meilleur paramétrage : {'metric': 'manhattan', 'n_neighbors': 17, 'weights': 'distance'}
Meilleur score : 0.7828
L'apprentissage pourrait être amélioré, mais l'expérience n'est pas reproductible.

philippebillet
Автор

Vos vidéos me font gagner beaucoup de temps. J'apprends très vite avec vous. Merci Guillaume.

Amadou
Автор

Bravo pour votre pédagogie. On sent que vous êtes passionné et que vous aimez transmettre. Merci !👏👏👏

christopheaballea
Автор

Mec merci beaucoup je suis étudiant en M1 info et c'est mon cours (en mieux) que tu viens de faire 😍

ppolyon
Автор

Vous êtes le meilleur.
Ca devient vraiment facile avec vous

mamadouseydi
Автор

On est en fin 2022, je tombe sous ces vidéos géniales, franchement merci beaucoup.
Ma réponse du coup pour les hyperparamètres: {'metric': 'manhattan', 'n_neighbors': 12, 'weights': 'distance'}

tafsirndiour
Автор

Mon modèle de prédiction neuronale pense déjà trop souvent avoir bien prédis la qualité de ta vidéo à venir mais se heurte si souvent à tes bon modèles de vidéos optimiser, Tout ce qui ce conçois bien S'énonce très clairement force à toi Guillaume bon boulot

madaragrothendieckottchiwa
Автор

Toujours aussi instructif. Un grand merci a toi pour le partage de ton savoir.

kid
Автор

Merci Beaucoup, vous êtes mille fois mieux que notre prof de la fac 👏👏👏

zainasadoun-nrqh
Автор

Bonjour, Guillaume. L'explication sur les données de validation m'a fait sourire. Elle me fait penser aux projets informatiques en entreprise. De mon expérience c'est exactement la même chose ! Si les développeurs travaillent avec en vue les données des tests d'intégration (= test set) alors le code n'est pas vraiment bon puisque qu'ils développent alors des comportements trop en accord avec ces mêmes données et des bugs sont à prévoir en production. C'est là qu'intervient les tests en validation (souvent faits par le client). Ces tests (validation set) vont alors éprouvés réellement le code afin de savoir si il n'y a pas de bug. Je trouve l'analogie vraiment intéressante.

MrFruxion
Автор

Super vidéo, merci Guillaume
Best_params = {'metric': 'manhattan', 'n_neighbors': 9, 'weights': 'distance'}
model.score =0.804

tiohacademy
Автор

Super !
Merci !
Tu démontres très bien en quoi Scikit Learn est un outil très puissant !

Je n'imaginais pas qu'on pouvais optimiser à ce point la recherche d’hyper-paramètre.

TheRemiRODRIGUES
Автор

Très dense cette vidéo ! J'ai appris beaucoup de choses merci !
Résultats : metric = manhattan, neighbors ~10-25, weights = distance; need more data; score sur le test set ~ 75-85%

quentinpotie