Python анализ данных с Pandas. PandaSQL

preview_player
Показать описание


Pandas + SQL) Обзор Python-библиотеки PandaSQL
Pandas уже давно является неотъемлемым инструментом в арсенале любого специалиста, работающего с данными на языке Python. Ровно также неотъемлемым навыком является знание языка SQL, предназначенного для извлечения, хранения и модификации данных из реляционных баз.

В данном видео будет рассмотрена python-библиотека PandaSQL, которая позволяет использовать язык запросов SQL для обработки табличных данных pandas (DataFrame).

Данная библиотека может быть полезна:

специалистам, знающим SQL, но еще не знакомых с синтаксисом pandas, при этом уже готовый код будет для них более читабельным;
в случаях, когда задачу выгрузки данных интуитивно легче сформулировать средствами декларативного языка запросов SQL.
Установить данную библиотеку можно следующими командами:

для Pip: pip install pandasql;
для Anaconda: conda install pandasql.
В целях демонстрации функционала данного модуля мы используем Mall Customers Dataset – открытые данные посетителей магазина (id, пол, возраст, доход, рейтинг трат) с сайта Kaggle.

Важное напоминание: c помощью PandaSQL можно обращаться только к данным в виде pandas dataframe, поэтому наряду с ним необходимо импортировать сам pandas.
Рекомендации по теме
Комментарии
Автор

По анализу довольно легко и понятно. Пусть и по верхам, как ознакомительное.
Совершенно не ясно про подключение к СУБД, какие реквизиты и где вообще расположена? Возможно, это уже офтоп и продвинутая тема :)

АлександрМаркин-нв
Автор

не совсем понял для чего в начале видео Автор подключил numpy, не увидел в каком месте его применяли по ходу видео

zloy_tarakaniscshe