## Edición 2018
El BDC es el Hackathon de Ciencia de Datos más importante de la CDMX. Es organizado por Grupo Modelo, Microsoft y The Data Pub, la comunidad de Ciencia de Datos más grande de México. El objetivo es seleccionar a los mejores Científicos de Datos para ingresar a las filas del grupo de Innovación & Analytics en la cervecer
-
Fecha: 02/06/18 - 03/06/18
-
Desafío: Comercial
-
Equipo: VR3
Oscar Chavez oscar@vr3.io
Patrick Moss patrick@vr3.io
- RETO
- ESTRATEGIA
- RESULTADOS
Grupo Modelo debe pronosticar la demanda de más de 250 SKUs en más de 200 Subagencias (Restaurantes, Bares, Tiendas, etc.) con 2 Meses de anticipación.
Este pronóstico es la entrada para determinar el volumen de producción, es por eso que debe hacerse con 2 meses de anticipación.
¿Cuántos hectolitros de cada SKU debe proveer Grupo Modelo a cada Subagencia, en función de los datos históricos de venta?
Generar un modelo predictivo que utilice datos históricos para pronosticar la demanda.
Variable | Tipo |
---|---|
Mes | Fecha |
Subagencia | Carácter |
SKU | Carácter |
Hectolitros | Numérico |
Variable | Tipo |
---|---|
Subagencia | Carácter |
Desc_Subagencia | Carácter |
Latitud | Numérico |
Longitud | Numérico |
El contexto del reto nos habla de un problema al que podemos aproximar una solución utilizando algoritmos de regresión, para generar un modelo de aprendizaje supervisado.
- Revisar Dataset y entender el problema
- Integrar datos de factores externos al Dataset.
- Ingestar Dataset => Azure ML Studio
- Split 70/30 del Dataset (Training/Test)
- Seleccionar Modelo de Machine Learning => Regression
- Entrenar Modelo
- Puntuar Modelo
- Evaluar Modelo
Revisamos el dataset provisto y ploteamos el area de interés:
Hectolitros/SKU
Una vez limpiado el dataset, procedimos a ingestar el dataset y a partirlo en 70/30 para tener nuestro Training Set (70) y nuestro Test Set (30)
Utilizando la información histórica de venta del dataset, implementamos 2 algoritmos de regresión:
- Decision Forest Regression
- Poisson Regression
para generar nuestro análisis predictivo utilizando Microsoft Azure ML Studio.
Gráfica de Pronostico Incial
Usamos python
para generar 5 scripts que consumen y limpian los datasets de los siguientes factores externos que consideramos pertinentes para tener un Dataset más acercado a la realidad.
Primero utilizamos la latitud y longitud
para encontrar la ENTIDAD y a partir de este resultado, consumir los siguientes datasets de datos.gob.mx
- Clima (Temperatura Máxima/Mínima)
- PIB (Estrato Socioeconómico)
- Indicador GINI (Distribución de Ingreso)
- Actividad Turística (Derrama Económica)
## RESULTADOS
DESC | RES |
---|---|
% Error de Modelo Pronosticado Mayo 2018 | .22364001 |
Herramientas Utilizadas | Azure ML Studio, R, Python, Pandas, ggplot, googlemaps, numpy |
Factores Externos | Temperatrua, PIB Estatal, Indicador GINI, Actividad Turística |
Usar datos externos puede parecer buena idea pero encontramos que los datos disponibles utilizados tienden a generar ruido en las predicciones de los modelos utilizados
- No encontramos correlación con la temperatura del estado y los hectolitros vendidos.
- Hay una correlación muy tenue con la ocupación hotelera por estado y la venta de hectolitros.