ИИИ Спортивный анализ данных - 6 лекция - 21.03.2023 + конспект от YandexGPT

preview_player
Показать описание
ИИИ Спортивный анализ данных - 6 лекция - 21.03.2023 + конспект от YandexGPT

00:11 Введение в процесс-преобразование данных

• Обсуждение визуализации данных и использования библиотек для анализа и визуализации.
• Обсуждение процесса-преобразования данных и его применения на примере бостонского дата сета.

03:52 Нормализация и стандартизация данных

• Обсуждение двух подходов к нормализации и стандартизации данных: нормализация и стандартизация.
• Применение скалера для преобразования данных и его использование в обучении и применении моделей.

07:04 Моделирование и обработка данных

• Обсуждение применения моделей на тренинге и тесте, а также обработки изменений в данных.
• Обсуждение использования медианы и работы скалера для обработки выбросов и перекосов в данных.

17:27 Выбросы в данных

• В видео обсуждается проблема выбросов в данных и их влияние на алгоритмы машинного обучения.
• Выбросы - это точки данных, которые значительно отличаются от остальных и могут привести к некорректным результатам обучения.
• Для решения этой проблемы предлагается использовать различные инструменты, такие как бокс-плоты, для визуального поиска выбросов и их количественной оценки.

26:15 Удаление выбросов

• Если количество выбросов невелико, можно попробовать удалить их, но это может привести к потере значительной части данных.
• В качестве альтернативы предлагается использовать логарифмическую трансформацию данных, которая может сгладить выбросы и уменьшить их влияние на алгоритмы.

31:10 Добавление нового признака

• Если выбросы присутствуют в большом количестве, можно добавить новый признак, который будет сообщать алгоритму о наличии выбросов в данной строке.
• Это позволит алгоритму учитывать выбросы и корректировать их влияние на обучение.

33:58 Выбросы и пропуски в данных

• Обсуждение выбросов и пропусков в данных, их влияния на качество обучения модели.
• Выбросы - это значения, которые сильно отличаются от остальных значений в столбце, могут быть реальными или математическими.
• Пропуски - это значения, которых нет в столбце, могут быть вызваны разными причинами, например, отсутствием данных.

42:35 Удаление выбросов и пропусков

• Удаление выбросов и пропусков может быть полезным, если есть возможность использовать логику и предметную сферу для заполнения пропусков.
• Удаление строк с пропусками может быть приемлемым, если это связано с продуктовой задачей, где пользователь может не получить прогноз.
• Удаление столбцов с пропусками может быть полезным, если в столбце много пропусков и мало заполненных значений.
• Удаление столбцов может быть полезным, если в столбце мало заполненных значений и много пропусков.

50:19 Заполнение пропусков в данных

• В видео обсуждается проблема заполнения пропусков в данных, когда в наборе данных есть строки с пропущенными значениями.
• Один из подходов - заполнение пропусков нулями, что может быть использовано для оценки качества модели.
• Однако, этот подход может исказить анализ, поэтому рекомендуется сначала провести анализ данных, а затем уже заполнять пропуски.

56:22 Оценка качества заполнения пропусков

• Для оценки качества заполнения пропусков можно использовать модель, которая была обучена на данных с заполненными пропусками.
• Если качество модели после заполнения пропусков улучшилось, это может быть признаком того, что заполнение было успешным.

01:00:48 Выбор метрики для заполнения пропусков

• Для выбора метрики заполнения пропусков можно использовать среднее, медиану или моду.
• Выбор зависит от типа данных и их распределения.
• Например, для данных с большим перекосом в сторону старых зданий, лучше использовать моду, так как она всегда возвращает одно значение.

01:07:11 Заполнение пропусков в данных

• Видео обсуждает различные методы заполнения пропусков в данных, включая заполнение вперед и назад.
• Заполнение вперед может быть неэффективным для данных с большим количеством пропусков подряд, в то время как заполнение назад может быть полезным для данных с большим количеством пропусков в конце.

01:10:20 Интеллектуальный метод заполнения пропусков

• Видео представляет интеллектуальный метод заполнения пропусков, который использует модель машинного обучения для прогнозирования пропущенных значений.
• Этот метод может быть более эффективным для данных, которые не подчиняются распределению временного ряда.

01:15:25 Обсуждение различных методов заполнения пропусков

• Видео обсуждает различные методы заполнения пропусков, включая интерполяцию, заполнение средним значением и удаление выбросов.
• Обсуждаются преимущества и недостатки каждого метода, а также их применимость к различным типам данных.
Рекомендации по теме