APPRENTISSAGE NON-SUPERVISÉ avec Python (24/30)

preview_player
Показать описание
L'apprentissage Non-Supervisé (Unsupervised Learning) est une technique de Machine Learning tres populaire. Dans ce tutoriel Python sur sklearn en français, je vous dévoile les algorithmes les plus importants : K-Means Clustering, IsolationForest, et PCA (Analyse en composantes principales)

0:00 : Intro
00:33 : Apprentissage Non-Supervisé
03:17 : K-Means Clustering
06:04 : K-Means Sklearn
11:00 : K-Means – Elbow Method
14:50 : Anomaly Detection (Isolation Forest)
19:52 : Isolation Forest Sklearn
22:03 : Application Isolation Forest (digits)
26:54 : Réduction de dimension (PCA)
30:14 : Visualisation de données
33:14 : Compression de données
40:00 : Conclusion et exercice

Pour rappel, l’apprentissage supervisé est une technique d’apprentissage qui consiste à montrer à la machine des exemples X, y de ce qu’elle doit apprendre.
À l’inverse, l’apprentissage non-supervisé consiste à fournir à la machine uniquement des données X, et lui demander d’analyser la structure de ces données pour apprendre elle-même à réaliser certaines tâches.

1. Clustering
Une des applications les plus populaires de l’apprentissage non-supervisé est le Clustering. Le principe est de laisser la machine apprendre à trier des données selon leur ressemblances (et donc en analysant uniquement les features X).
Les algorithmes à connaitre :
- K-Means : Tres rapide, mais non-efficace sur les clusters non-convexes.
- AgglomerativeClustering : assez lent, mais efficace sur les données non-convexes
- DBSCAN : efficace sur les données non-convexes, mais sélection du nombre de clusters automatique
Applications :
- Trier des documents, des photos, des tweets
- Segmenter la clientèle d’une entreprise
- Optimiser l’organisation d’un système informatique, etc…

2. Détection d’Anomalies
Un autre exemple d’application de l’apprentissage non-supervisé est la Détection d’Anomalies. En analysant la structure X des données, la machine est capable de trouver les échantillons dont les features sont tres éloignées de celles des autres échantillons. Ces échantillons sont alors considérés comme étant des anomalies.
Les algorithmes à connaitres :
- IsolationForest : Efficace pour détecter des outliers dans le train_set
- Local Outlier Factor : Efficace pour détecter des anomalies futures
Applications :
- Nettoyer un Dataset des valeurs aberrantes qui le composent
- Détecter un comportement anormal sur un site Internet ou sur une caméra de surveillance
- Maintenance prédictive des machines d’une usine

3. Réduction de dimension
La dernière application très importante de l’apprentissage non-supervisé est la réduction de dimension. Le principe est de réduire la complexité superflue d’un dataset en projetant ses données dans un espace de plus petite dimension (un espace avec moins de variables). Le but est d’Accélérer l’apprentissage de la machine et de Lutter contre le fléau de la dimension.
Algorithmes a connaitres :
- Analyse en composantes principales (PCA) : le plus populaire et le plus simple a comprendre
- TSNE
- Isomap

Applications :
- Visualisation de données : afficher sur un graphique 2D un espace de grande dimension
- Compression de dataset : réduire au maximum le poids d’un dataset en conservant un maximum de qualité

► Me soutenir financierement sur Tipeee (et obtenir des vidéos BONUS)

► REJOINS NOTRE COMMUNAUTÉ DISCORD

► MON SITE INTERNET:

► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:

► Téléchargez gratuitement mes codes sur github:

► Qui suis-je ?
Je suis Guillaume Saint-Cirgue, Senior Data Scientist avec plus de 8 ans d’expérience dans les secteurs de la tech, l’aviation, la robotique, l’énergie, et les usines connectées.

En 2019, j’ai créé Machine Learnia dans le but de partager mes connaissances dans le domaine de l’intelligence artificielle. Mon objectif est d’expliquer en détail le fonctionnement du Machine Learning et de ses algorithmes, tout en rendant ces concepts accessibles à tous.

Je suis convaincu qu'il ne suffit pas de survoler l'aspect mathématique de ce domaine; il est essentiel de s'y plonger en profondeur pour se démarquer. Cette approche a déjà convaincu plus de 150 000 personnes, et ceux que je forme aujourd'hui comptent parmi les meilleurs du secteur.

Рекомендации по теме
Комментарии
Автор

Et rejoignez une communauté de plus de 100, 000 Data Scientists francophones :)

MachineLearnia
Автор

Merci pour cette remarquable vidéo. En plus cela me rappelle de très vieux souvenirs (milieu des années 70) lorsque l'on essayait, avec un succès très moyen...) d'utiliser l'analyse en composantes principales pour essayer de classifier les directions départementales du Ministère de l’Équipement selon toute une flopée d'indicateurs d'activités. Mais nous ne respections pas vraiment les conditions que vous citez en fin de vidéo, je m'en aperçois en vous écoutant.

Le Nouvel Observateur a également publié à cette même période des "cartographies" de différents comportements sociologiques, basées sur l'ACP.
Finalement il n'a fallu "que" 40 ans pour disposer d'outils puissants qui permettent d'aller vite, mais il faut toujours une grosse réflexion en amont pour les utiliser correctement, et des compétences techniques plus vastes.

duflotjean
Автор

Thaks teacher, I studie Master in Big Data and without doubt ; this is the best tuto in ML I've never seen .

mohamedbebay
Автор

Bravo,
l'une des meilleurs video sur youtube sur l'apprentissage non supervisé....
explication avec une pédagogie sans pareil

Dieu_Seul_Suffit__PJG
Автор

grâce à cette video : j'ai dans ma toolbox IsolationForest et LocalOutlierFactor, 2 'clefs' dans la réalisation d'un nettoyage d'outliers efficace. Vous êtes le seul à nous faire grimper avec une telle passion dévorante :D !

jonathancasteloot
Автор

Franchement je ne saurais comment vous dire merci. ❤❤❤ étant distrait en salle ( du au fait que mon prof parle très vite et pour moi n’explique pas très bien) j’ai pu grâce à vous valider la matière et même les tp (ceux qui suivaient le plus d’ailleurs rattrapent)

Merci encore vous avez une très belle pédagogie, tout est très bien expliqué même pour un ignorant.

raphaelantoine
Автор

nous vous attendrons en vidéo d'apprentissage par renforcement, vos formations sont les meilleures merciiii Guillaume Saint-Cirgue

lativayahya
Автор

Excellente vidéo, cela m'a permis de découvrir l'algorithme d'IsolationForest. En effet j'avais travaillé sur la détection des fraudes mais pour les algorithmes d'ensembles comme Xgboost et LightGBM. En tant que Data Scientist, tes vidéos me sont vraiment utiles. Merci à toi

souleymanesow
Автор

Cette vidéo est vraiment tout ce dont j'avais besoin (et j'ai pourtant déjà parcouru pas mal de contenu sur le même sujet). Des explications claires, des exemples concrets, et une mise en application avec Python
Donc un grand MERCI pour cette vidéo, je ne manquerai pas de me référer à votre chaîne à l'avenir !!

barbarapernot
Автор

Cette vidéo est vraiment très claire ! et donne un bon exemple de ce qu'on peut faire.
Je pense que 3 ans plus tard la question n'est plus à l'ordre du jour mais un exemple de clusterisation avec des données textes serait un bon cas pratique...bon c'est pas innocent, je me prends la tête avec cela sans vraiment savoir si ma méthode et mes résultats sont corrects!!
Mais merci encore pour ces vidéos !

stephd
Автор

Franchement un grand merci à toi Mr. Guillaume

wekametal
Автор

Merci pour les explications très claires, les recaps pertinents et le voix très agréable à suivre. C'est dommage que je connais pas la chaîne avant car même avec une formation payant très cher, je n'ai pas des explications si claires comme les vôtres.

beochannelbymaika
Автор

de m'empêcher de perdre la tête pendant ce confinement 🙏
Excellent travail, comme d'habitude 😁

saadiaouldsaada
Автор

vous êtes un super génie des data science et un excellent enseignant. waho vous m'inspirez beaucoup.

yvespanfulegoue
Автор

SUPER ! Je n'avais pas compris le concept PCA la première fois que l'on me l'a expliqué
Content de te soutenir sur Tipeee (là, je fais un rappel pour tout le monde !)

guillaumetopenot
Автор

14mn, je veux que vous nous fassiez une vidéo sur la classification de documents. Merci encore une fois

master-tech
Автор

Comment tu expliques super bien, c'est clair comme de l'eau de roche, merci

KenoKanawa
Автор

Trés heureux de savoir que vous allez bien mon Chère Guillaume Beau travail et vidéo bien développer !!

madaragrothendieckottchiwa
Автор

j'aime toujours avant de commencer à regarder la vidéo
Merci beaucoup et bonne continuation

master-tech
Автор

Super, merci la video tombe a pique j'avais justement un projet a faire en ACP. 🙏🏼🙏🏼

hansomary
join shbcf.ru