-
Notifications
You must be signed in to change notification settings - Fork 23
Cómo instalar y poder procesar la captura de datos en Escovid19data
Esta es una guía para explciar cómo correr los scripts de Escovid19data.
Los datos se descargan de múltiples fuentes. Tanto los descargados automáticamente de repositorios de datos abiertos como los que se recopilan manualmente en una hoja de cálculo online compartida son luego procesados con este script de R en otro repositorio.
- Git
- R
- Rstudio con las diversas librerías que se indican al principio de cada script
Necesitas tener instalado estos dos repositorios:
/covid19
es la cocina de los datos y /escovid19data
donde se publican.
En /covid19
también se generan todos los gráficos que se peuden ver en la web https://lab.montera34.com/covid19/
Para clonar con git los repositorios usa:
git clone https://code.montera34.com/numeroteca/covid19.git
git clone https://github.com/montera34/escovid19data.git
El primero trardará un rato, pesa más de 25GB.
Deberían quedar los dos en el mismo directorio:
/escovid19data
/covid19
- Abre el proyecto de Rstudio de
/covid19
. Tienes que abrir el archivo /covid19.Rproj desde Rstudio. - Una vez en el proeyecto abre el archivo
/analysis/process_spain_provinces_data.R
. - Seleccionar todo el código con ctrl + a y... ctrl + enter o pulsa el botón Run de Rstudio para ejecutar. El script irá descargando los diferenes datos de las diversas fuentes e integrándolos todos en una única base de datos. Puede tardar 5 minutos, depende del procesador de tu ordenador y de la velocidad de descarga.
Cosas no automatizadas: las descargas de datos de Andalucía y Cantabria, que da problemas de certificados y debemos descargar desde el navegador.
-
Cantabria: descarga el archivo https://serviweb.scsalud.es:10443/ficheros/COVID19_historico.csv en la carpeta
data/original/spain/cantabria/COVID19_historico.csv
con el mismo nombre. -
Andalucía: descarga el archivo https://www.juntadeandalucia.es/institutodeestadisticaycartografia/badea/stpivot/stpivot/Print?cube=e31f8668-049c-4c17-a879-e097e9b3dfc8&type=3&foto=si&ejecutaDesde=&codConsulta=38228&consTipoVisua=JP en la carpeta
data/original/spain/andalucia
con el nombreandalucia-instituto-estadistica-cartografia_2.csv
.
Tampoco está automatizado el procesado de datos de las vacunaciones: ve a los commits de escovid19data https://github.com/montera34/escovid19data/commits/master y busca el último de las vacunas. Por ejemplo este Es este: https://github.com/montera34/escovid19data/commit/73a62031dcc3b0fbe2f860d42973943a42c62a1d. Copia las filas en verde (las añadidas al final del archivo data/original/vacunas/estado_vacunacion_.csv) y pégalas en el archivo al final del archivo data/original/spain/vacunaciones.csv
Esta fase sirve a para visualizar en primera instancia que no hay problemas con los datos.
En el directorio /reports
encontrarás los siguientes archivos:
- informe-escovid19data.Rmd Puedes ver una versión del archivo que genera en informe-escovid19data.html
- tablas-escovid19data.Rmd Puedes ver una versión del archivo que genera en tablas-escovid19data.html
Vamos a generar con ello unos .html con Knitter.
Una vez comprobados los datos hay que ejecutar del directorio /analysis los siguientes scripts:
charts_spain_provinces.R
- luego
comparativa-bases-de-datos.R
(este último solo correr desde "# ////// Comparativa casos escovid19data y RENAVE ISCIII -----------", la línea 619 hasta el final). pronto lo limpiaré para que se ejecutarlo todo de una vez.
luego da igual el orden
charts_spain.R
charts_spain_ccaa.R
charts_spain_experiments.R
Estos archivos generan las imágenes en png de img/spain/ que luego pueden verse en la web https://lab.montera34.com/covid19/
Estamos evaluando reestructurar y optimizar el código así como construir un dashboard en Shiny. Un dashboard que permitiría "ir hacia artás en el tiempo" para ver cómo estaban los datos en un determinado momento. Un dahshboard o dashboards. Algo que se puede hace ahora, lo de viajar al pasado, viendo las versiones anteriores de los gráficos en PNG pero que no parece la mejor de las soluciones. Estamos ampliando el equipo y viendo si troceando el código es más fácil poder colaborar.
Empieza instalando lo que hay y vemos.
Para poder colaborar necesitarás cuenta en el gitlab de montera34 (https://code.montera34.com) y en github.com.
Hemos creado un issue para esto: https://github.com/montera34/escovid19data/issues/34