Previsões de Séries Temporais com XGBoost

preview_player
Показать описание
A maioria dos iniciantes já está familiarizada com modelos feito para dados cross-sectional. Aqueles modelos como Regressão Logística, Random Forest, Árvore de Decisão, aqueles que a gente aplica quando se tem uma foto de certos dados em um dado momento. Porém, lidar com eventos onde o tempo é relevante são diferentes e precisam de alguns cuidados. Hoje, vou mostrar como adaptar esses modelos tradicionais para dados cross sectional. Tenha em mente que essa não é a única forma de um cientista de dados lidar com series temporais!

Рекомендации по теме
Комментарии
Автор

Rapaz acertou logo no meu tema favorito ótimo conteúdo como sempre Yukio, e esse vídeo tirou algumas dúvidas que eu tava tendo e que tavam me travando em um projeto que estou pra lançar. Muito

JoaoVictor_r
Автор

Parabéns pelo vídeo! Uma dúvida em relação a séries temporais e especificamente usando o XGBoost: O menor dado de Lag são 7 dias. É possível fazer previsões para janelas de tempo maior que 7 dias?

Pq para lag7, a partir de 7 dias quais são os dados que vão ser utilizados como base pro modelo? O mesmo se aplica a lag14. A partir de 14 dias, quais serão os dados utilizados no modelo? E assim sucessivamente...

Nesse caso, como o dataset é completo, temos todos os dados de Lag no dataset de treino e a previsão acontece normalmente. Mas para fazer previsões de fato para o futuro, como fica esse aspecto? Porque para mais de 7 dias não temos dados, e assim sucessivamente como foi falado no parágrafo 2. Como funciona para o modelo fazer essas previsões?

mrnsdatascience
Автор

Sobre a features, eu não entendi bem os lags, reassiste essa parte e ainda não entendi, mas o uso de janelas temporais também é uma opção né?

LucasEduardoPereiraTeles
Автор

Muito bom achei interessante a estrategia de feature selection. XGBoost é um baita algoritmo, tanto pra regressão, quanto pra classificação, mas nunca usei em séries temporais. Nesse caso o R² deve ter dado esse valor, justamente com o MAE e o MSE ambos muito alto, pois muito provavelmente os dados não são estacionários, um teste de Dickey Fuller aumentado ia ajudar a ver isso, daí uma transformação logarítmica ou aplicar um diff() ia ajudar. Sei que o vídeo é mais pra mostrar o modelo para séries temporais e como aplicar, pois a ordem importa dos dados importa nas séries, mas fazer limpeza de dados e o feature selection antes do split não geraria data leakege? Só uma dúvida sincera mesmo. Abraços!

SamoraDc
join shbcf.ru