A Rossmann opera mais de 3.000 drogarias em 7 países europeus. Atualmente, os gerentes de loja da Rossmann têm a tarefa de prever suas vendas diárias com até seis semanas de antecedência. Com milhares de gerentes individuais prevendo vendas com base em suas circunstâncias únicas, a precisão dos resultados pode ser bastante variada e isso dificulta a tomada de decisão. Para auxiliar na resolução da questão foi implementado um modelo de predição que permite interação com o time de negócios.
Atender a requisição dos gerentes das lojas que precisam fazer uma previsão de vendas com 6 semanas de antecedência.
Após reuniões com pessoas da área descobriu-se que a requisição provém do CFO que está enfrentando o problema de determinar o orçamento para cada loja realizar sua reforma, sendo assim precisa aplicar o valor exato para este orçamento a partir da previsão de vendas das próximas 6 semanas de cada loja. Com o valor da receita das lojas será possível entender a quantia necessária para reforma de cada unidade.
As vendas da loja são influenciadas por muitos fatores, incluindo promoções, competição, feriados escolares e estaduais, sazonalidade e localidade. E a partir destes fatos foram levantadas algumas hipóteses importantes e representadas por meio de visualizações.
H1. Lojas com maior sortimentos deveriam vender mais.
H2. Lojas com competidores mais próximos deveriam vender menos.
H3. Lojas com competidores a mais tempo deveriam vender mais.
H4. Lojas com promoções ativas por mais tempo deveriam vender mais.
H5. Lojas com mais promoções consecutivas deveriam vender mais.
H6. Lojas abertas durante o feriado de Natal deveriam vender mais.
H7. Lojas deveriam vender mais ao longo dos anos.
H8. Lojas deveriam vender mais no segundo semestre do ano.
H9. Lojas deveriam vender mais depois do dia 10 de cada mês.
H10. Lojas deveriam vender menos aos finais de semana.
H11. Lojas deveriam vender menos durante os feriados escolares.
1. Análise Descritiva dos Dados
Iniciada descrição dos dados com o objetivo de obter um resumo abrangente sobre os dados para entender qual o problema será enfrentado com esses dados.
2. Engenharia de Atributos
Neste passo foram criadas variáveis a partir das originais e em seguida aplicada filtragem das variáveis baseada no modelo de negócio que apresenta muitas restrições, pois alguns dados podem ser utilizados e outros não estão disponíveis.
3. Análise Exploratória de Dados
Esta análise teve dois objetivos: entender o negócio do ponto de vista dos dados e encontrar quais variáveis são importantes para o aprendizado do modelo e para isso foram aplicadas análises univariada, bivariada e multivariada, que possibilitaram o levantamento de hipóteses.
4. Preparação dos Dados
As variáveis foram transformadas por meio de encoding de categóricas para numéricas em dados cíclios e em seguida a foi modifica a variável resposta com a aplicação do log.
5. Seleção de Atributos
Por meio do algoritmo Boruta que encontra todas as correlações e sugere variáveis que possam ser relevantes para o modelo, foi realizado um merge e o dataset ficou pronto para a execução da próxima etapa, machine learning.
6. Treinamento de Modelos de Machine Learning
Foram implementados 5 algoritmos: Baseline, Linear Regression, Linear Regression Lasso, Random Forest Regressor e XGboost Regressor. Em seguido foi ranqueada a performance de cada um desses modelos de acordo com o menor erro ou maior performance, finalizando com a aplicação do cross-validation para medir a performance real.
7. Modelo de Negócios
A performance do modelo de machine learning foi traduzida para o modelo de negócio com informações que podem impactar no retorno financeiro e custo de investimos.
8. Implantação do Modelo em Produção
A implementação do modelo em produção visa tornar as predições mais acessíveis para qualquer responsável por acompanhar o desenvolvimento do negócio.
9. Bot no Telegram
As etapas executadas nesta questão de negócio demonstram a importância de entender a origem da solicitação de previsão de vendas, quais as reais necessidades dos interessados para que o cientista de dados possa chegar ao resultado apresentado.
Dentre essas etapas, a análise exploratória de dados foi fundamental para a elaboração de hipóteses que trouxeram insights relevantes para o planejamento de novas ações e aplicações dos modelos de machine learning.
A implementação dos modelos de machine learning permitiram a construção de cenários que serviram de indicativos para a tomada de decisão pelo time de negócio, que por sua vez teve acesso às informações por meio do bot no Telegram.
Apesar de todas as etapas do projeto terem sidos entregues ainda há um ponto importante para ser desenvolvido, o modelo de machine learning trouxe a predição correta para a tomada de decisão, que foi traduzido em modelo de negócio ao time responsável, porém o valor exibido no Bot do Telegram está diferente da predição, o código está em processo revisão para que seja sanado o problema.
Disponível em: https://www.kaggle.com/c/rossmann-store-sales