Proyecto de mitad de bootcamp Big Data y Machine Learning

Autor: Nicolas Manduley

Dataset: COVID-19 (kaggle.com)

Este dataset esta compuesto por tres archivos CSV con data global relativa al COVID-19: 1. "confirmed_global.csv": casos confirmados 2. "deaths_global.csv": muertes totales 3. "recovered_global.csv": casos recuperados

Cada dataset contiene la lista de paises, sus respectivas coordenadas (latitud y longitud) y el numero de casos (confirmados, recuperados o muertes).

Data Cleaning

Cada fila contiene las coordenadas geograficas (latitud y longitud) y el numero de casos (confirmados, muertes y recuperados) correspondientes a cada pais. Algunos paises contienen la data clasificada por provincia/estado.

Para efectos de este proyecto, solo se ha tenido en cuenta la data por pais. Por lo tanto, los datos clasificados por provincia han sido sintetizados en una unica fila correspondiente a su respectivo pais.

No hay valores NaN en las columnas de las fechas, por lo que esa parte del dataset no requiere tratamiento adicional.

Base de datos

Los datasets procesados fueron exportados como CSV y subidos a MongoDB para ser accesados a través de la API

API

Se ha programado una API con sus respectivos endpoints para extraer los valores necesarios en cada etapa.

Dashboard

Una interfaz grafica en Streamlit permite seleccionar el tipo de datos que se quiere obtener de cada dataset para su visualizacion. La interfaz permite seleccionar: 1. Dataset (casos confirmados, muertes y recuperados) 2. Pais o paises que se desea visualizar/comparar en las graficas 3. Rango personalizado de fechas para la visualizacion

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
api		api
dash		dash
exploratory		exploratory
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
run.sh		run.sh
run_st.sh		run_st.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Proyecto de mitad de bootcamp Big Data y Machine Learning

Autor: Nicolas Manduley

Dataset: COVID-19 (kaggle.com)

Data Cleaning

Base de datos

API

Dashboard

About

Releases

Packages

Languages

nmanduley/midproject

Folders and files

Latest commit

History

Repository files navigation

Proyecto de mitad de bootcamp Big Data y Machine Learning

Autor: Nicolas Manduley

Dataset: COVID-19 (kaggle.com)

Data Cleaning

Base de datos

API

Dashboard

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages