EDA: разведочный анализ данных

preview_player
Показать описание

EDA, Exploratory Data Analysis, разведочный (или исследовательский) анализ данных обычно проводится примерно вместе с получением и очисткой данных и во многом определяет, как именно данные должны быть очищены. Фактически, EDA - это выявление статистических особенностей данных, например, нормальность распределения, неоднородность, наличие корреляций или выбросов, которые могут привести к упрощению модели или необходимости дополнительной очистки данных.

В разведочном анализе данных выделяют несколько важных шагов:

1. Пропуски данных
Пропуски в данных не позволяют в полной мере использовать ряд методом машинного обучения: в этом случае частично отсутствующие данные должны быть либо исключены из выборки, либо отсутствующие значения нужно каким-то образом "вычислить" - заменить граничными значениями или интерполировать по соседним данным.

В любом случае, в данных, которыми будут оперировать модели машинного обучения, пропусков не должно быть. Все значения во всех кортежах данных должны быть определены. Поэтому первым шагом проверяют наличие пропусков по каждой серии данных.

2. Параметры распределения
После устранения проблем с данными, можно перейти к следующему шагу - оценке распределения выборки на нормальность, поиск аномалий (выбросов), выявление каких-либо особенностей (например, превалирующих значений, бимодальности или определенного характера распределения).

Информация об аномалиях, например, 1 и 99-перцентиль, наибольшие и наименьшие значения, можно учитывать при очистке данных, если это улучшит качество модели. Также в ряде случаев по характеру распределения выбирают оценку среднего (это может быть не арифметическое среднее, а медиана или моды) для использования в моделях.

3. Корреляция данных
Важной частью разведочного анализа данных является выявление взаимосвязи (корреляции) как между независимыми параметрами, так и между предсказываемой (зависимой) величиной и независимыми параметрами.

Наличие корреляций позволяет отобрать набор параметров для построение первого приближения модели и оценке разных моделей на наиболее значащих параметрах. Таким образом, правильно проведенный разведочный анализ данных способен существенно сократить время на поиск оптимальной модели.

4. Примеры данных
В заключении разведочного анализа данных обычно смотрят на один или несколько кортежей данных в целом для понимания ситуации. Иногда какие-то особенности данных могут быть незамеченными в ходе первых трех шагов, но становятся очевидными при рассмотрении нескольких примеров данных.

Результат исследовательского анализа данных зачастую оформляют в виде ряда графиков - гистограмм, матрицы корреляции или диаграммы разброса - отображающих характерные особенности данных и сами данные.
Рекомендации по теме
Комментарии
Автор

2:01 типы распределений
3:30
3:50
4:38

Леонид-сз