filmov
tv
Manipulation des DataFrames PySpark (Spark / Python)

Показать описание
Introduction à Spark SQL, un module du framework Spark pour la manipulation des données structurées, en particulier les DataFrames. Nous nous appuyons sur l’API PySpark, il permet d’interagir avec Spark via le langage de programmation Python. La configuration du dispositif est extrêmement simple : il suffit de créer un environnement (j’utilise conda) et d’y installer la librairie. L’accès au moteur de calcul est transparent pour nous. Notre code est valable que notre structure sous-jacente soit une machine locale ou un cluster de machines. Plusieurs étapes sont décrites dans la vidéo : création d’une session, chargement d’un fichier CSV, quelques filtrages et calculs statistiques (moyennes, croisement). Enfin, PySpark nous offre la possibilité de réaliser des requêtes rédigées en langage SQL.
00:00 Package PySpark pour Python
06:20 Données à traiter (9.796.862 obs., 42 colonnes)
07:00 Démarrage du notebook
08:08 Création d'une session Spark
09:42 Chargement des données - DataFrame PySpark
12:11 Filtrage (moteur sous-jacent - Java)
14:06 Calcul - Moyennes des variables numériques
16:14 Filtrage + Moyennes
16:49 Tri du DataFrame selon une variable
17:25 Comptage des valeurs
18:27 Calculs conditionnels à 1 et 2 critères (groupby)
19:08 Travailler avec des requêtes SQL
21:28 Fin de session
00:00 Package PySpark pour Python
06:20 Données à traiter (9.796.862 obs., 42 colonnes)
07:00 Démarrage du notebook
08:08 Création d'une session Spark
09:42 Chargement des données - DataFrame PySpark
12:11 Filtrage (moteur sous-jacent - Java)
14:06 Calcul - Moyennes des variables numériques
16:14 Filtrage + Moyennes
16:49 Tri du DataFrame selon une variable
17:25 Comptage des valeurs
18:27 Calculs conditionnels à 1 et 2 critères (groupby)
19:08 Travailler avec des requêtes SQL
21:28 Fin de session