-
Notifications
You must be signed in to change notification settings - Fork 23
Cómo instalar y poder procesar la captura de datos en Escovid19data
Esta es una guía para explicar cómo correr los scripts de Escovid19data.
Los datos se descargan de múltiples fuentes. Tanto los descargados automáticamente de repositorios de datos abiertos como los que se recopilan manualmente en una hoja de cálculo online compartida son luego procesados con este script de R en otro repositorio.
- Git
- R
- Rstudio con las diversas librerías que se indican al principio de cada script
Necesitas tener instalado estos dos repositorios:
/covid19
es la cocina de los datos y /escovid19data
donde se publican.
En /covid19
también se generan todos los gráficos que se peuden ver en la web https://lab.montera34.com/covid19/
Para clonar con git los repositorios usa:
git clone https://code.montera34.com/numeroteca/covid19.git
--> Guarda los ficheros en un directorio /covid19
git clone https://github.com/montera34/escovid19data.git
--> Guarda los ficheros en un directorio /escovid19data
Ambos directorios deberán estar dentro de un directorio común.
El primero tardará un rato, pesa más de 25GB.
Ambas CCAA dan problemas de certificados, y debemos descargar manualmente desde el navegador.
-
Cantabria: descarga el archivo https://serviweb.scsalud.es:10443/ficheros/COVID19_historico.csv en la carpeta
data/original/spain/cantabria/COVID19_historico.csv
con el mismo nombre. -
Andalucía: descarga el archivo https://www.juntadeandalucia.es/institutodeestadisticaycartografia/badea/stpivot/stpivot/Print?cube=e31f8668-049c-4c17-a879-e097e9b3dfc8&type=3&foto=si&ejecutaDesde=&codConsulta=38228&consTipoVisua=JP en la carpeta
data/original/spain/andalucia
con el nombreandalucia-instituto-estadistica-cartografia_2.csv
.
Tampoco está automatizado el procesado de datos de las vacunaciones: ve a los commits de escovid19data https://github.com/montera34/escovid19data/commits/master y busca el último de las vacunas. Por ejemplo este Es este: https://github.com/montera34/escovid19data/commit/73a62031dcc3b0fbe2f860d42973943a42c62a1d. Copia las filas en verde (las añadidas al final del archivo data/original/vacunas/estado_vacunacion_.csv) y pégalas en el archivo al final del archivo data/original/spain/vacunaciones.csv
- Abre el proyecto de Rstudio de
/covid19
. Tienes que abrir el archivo /covid19.Rproj desde Rstudio. - Una vez en el proyecto abre el archivo
/analysis/process_spain_provinces_data.R
. - Seleccionar todo el código con ctrl + a y... ctrl + enter o pulsa el botón Run de Rstudio para ejecutar. El script irá descargando los diferenes datos de las diversas fuentes e integrándolos todos en una única base de datos. Puede tardar 5 minutos, depende del procesador de tu ordenador y de la velocidad de descarga.
Esta fase sirve a para visualizar en primera instancia que no hay problemas con los datos.
En el directorio /reports
encontrarás los siguientes archivos:
- informe-escovid19data.Rmd Puedes ver una versión del archivo que genera en informe-escovid19data.html
- tablas-escovid19data.Rmd Puedes ver una versión del archivo que genera en tablas-escovid19data.html
Vamos a generar con ello unos .html con Knitter. Abre los .Rmd y pulsa el botón de "knit".
Antes tienes que instalar la tipografía Roboto Condensed.
Una vez comprobados los datos hay que ejecutar del directorio /analysis los siguientes scripts:
charts_spain_provinces.R
- luego
comparativa-bases-de-datos.R
(este último solo correr desde "# ////// Comparativa casos escovid19data y RENAVE ISCIII -----------", la línea 619 hasta el final). pronto lo limpiaré para que se ejecutarlo todo de una vez.
luego da igual el orden
charts_spain.R
charts_spain_ccaa.R
charts_spain_experiments.R
Estos archivos generan las imágenes en png de img/spain/ que luego pueden verse en la web https://lab.montera34.com/covid19/
Una vez todos los datos y gráficos están listos hay que subirlos a los repositorios, 'commit' en la jerga de git.
Te vas al repositorio /escovid19data:
cd escovid19data
Una vez allí haces:
git pull
para descargarte todo lo nuevo que se haya commiteado por otras personas.
Ahora añade tus archivos modificados:
git add .
Que añade para commitear todos (eso es lo que significa el ".") los archivos que han cambiado.
Antes de hacerlo puedes mirar cuáles son con:
git status
Ahora que estás seguro de que son los archivos que quieres subir escribe la descripción del commit:
git commit -m "actualiza datos provincias 2021-03-31"
Ahora queda subir los archivos con:
git push
Haz lo mismo en el repositorio /covid19.
Luego hay que ejecutar más archivos de /analysis con otros gráficos:
charts_catalunya.R
charts_euskadi.R
euskadi_por-edades.R
evolution_italia.R
evolution_france.R
Y los martes:
charts_madrid.R
Por último unos .Rmd más:
- pendiente
Estamos evaluando reestructurar y optimizar el código así como construir un dashboard en Shiny. Un dashboard que permitiría "ir hacia artás en el tiempo" para ver cómo estaban los datos en un determinado momento. Un dahshboard o dashboards. Algo que se puede hace ahora, lo de viajar al pasado, viendo las versiones anteriores de los gráficos en PNG pero que no parece la mejor de las soluciones. Estamos ampliando el equipo y viendo si troceando el código es más fácil poder colaborar.
Empieza instalando lo que hay y vemos.
Para poder colaborar necesitarás cuenta en el gitlab de montera34 (https://code.montera34.com) y en github.com.
Hemos creado un issue para esto: https://github.com/montera34/escovid19data/issues/34