ИИИ Спортивный анализ данных - 7 лекция - 04.04.2023 + конспект от YandexGPT

preview_player
Показать описание
ИИИ Спортивный анализ данных - 7 лекция - 04.04.2023 + конспект от YandexGPT

00:12 Физическая регрессия и классификация

• Обсуждение методов работы с выбросами и пропусками данных, включая физическую регрессию и классификацию.
• Упоминание о создании таблицы с моделями и их применением для разных данных.

02:38 Дискретизация и кодирование категорий

• Обсуждение процесса дискретизации вещественных чисел в категории для моделей, которые могут потерять информацию.
• Примеры использования бинаризации и униформы для разбиения на категории.

09:00 Трансформация функций и кодирование слов

• Обсуждение использования функции Pandas для преобразования функций в числовые представления.
• Примеры работы с категориальными данными и их кодированием.

19:23 Мультибенойзер и кодирование категорий

• Видео обсуждает использование мультибенойзера для решения задач классификации с несколькими классами.
• Упоминается инструмент для кодирования категорий, который позволяет преобразовывать слова в цифры для обучения модели.

31:16 Разбиение на тренировочный и тестовый наборы

• Объясняется важность разбиения данных на тренировочный и тестовый наборы для оценки качества модели.
• Указывается на необходимость указания размера тренировочного набора и случайного разбиения на классы.

37:28 Регрессия и метрики

• Обсуждается использование регрессии для решения задач с числовыми значениями.
• Упоминаются метрики, такие как MSE, для оценки качества модели.

44:17 Дисбаланс классов и метрики классификации

• В видео обсуждаются метрики классификации, такие как точность и полнота, которые помогают решать проблемы дисбаланса классов.
• Точность учитывает только целевой класс, а полнота следит за всеми классами.

50:09 Примеры использования метрик

• В медицине, например, точность может быть важнее, если нужно предсказать болезнь и лечить только больных.
• В случае профилактики, полнота может быть более подходящей, так как важно вылечить всех.

55:08 Метрика "лук лосс"

• "Лук лосс" является средним гармоническим между точностью и полнотой и может быть более подходящим для балансирования между ними.

56:04 Метрики классификации

• Видео обсуждает различные метрики классификации, включая точность, полноту, лог-лосс и другие.
• Лог-лосс имеет преимущество в том, что он учитывает градации классов и может быть дифференцируемым.

01:02:07 Искусственный дисбаланс и метрики

• Видео демонстрирует, как искусственный дисбаланс влияет на метрики классификации, особенно на специфичность и точность.
• Обсуждаются различные варианты классификации, включая бинарный, макро и микро.

01:11:43 Confusion Matrix и визуализация

• Видео показывает, как Confusion Matrix может быть полезным инструментом для визуализации ошибок классификации.
• Обсуждается, как можно использовать этот инструмент для анализа и улучшения классификации.

01:15:11 Управление балансом между точностью и полнотой

• В видео обсуждается, как управлять балансом между точностью и полнотой, используя функцию "предсказание" и "непредсказание".
• Это позволяет изменять порог отсечки, чтобы определить, какие объекты считать принадлежащими к определенному классу.

01:18:24 Использование кривой ROC для сравнения моделей

• Кривая ROC может быть полезна для сравнения нескольких моделей, так как она дает оценку качества классификатора.
• Площадь под кривой ROC может быть использована для определения качества модели.

01:20:36 Изменение баланса между точностью и полнотой

• В видео объясняется, как можно изменять баланс между точностью и полнотой, меняя порог отсечки и bias.
• Это позволяет определить, при каком порошке у модели будет самый высокий скок.

01:24:32 Сохранение данных в DataFrame

• В видео обсуждаются способы сохранения данных в DataFrame, включая использование функции "трансформер" и "группирующие столбцы".
• Это позволяет сохранить данные в виде отдельных групп и работать с ними в дальнейшем.
Рекомендации по теме