-
Notifications
You must be signed in to change notification settings - Fork 23
FAQ Preguntas más frecuentes
Poco antes de declararse el Estado de Alarma por la pandemia, en marzo de 2020, nos dimos cuenta de que no existía información detallada sobre la COVID-19. Lo único que había en un principio eran los PDF que pulicaba el Ministerio de Sanidad y que Datadista había empezado a publicar como datos abiertos. Tras un llamamiento inicial por Twitter creamos un grupo de colaboradores para recopilar los datos por provincias. Cada persona se encargaba, y se encarga, de conseguir los datos de una comunidad autónoma o provincia. El número de personas aumentando con nuevas personas dando relevo a otras que llevaban desde el principio. Las provincias de cada comunidad autónoma son “amadrinadas” por una persona: es decir, esa persona se ocupa de recopilar los datos de esa comunidad autónoma.
Han colaborado de alguna forma u otra en el proyecto (indicando fuentes, creando scripts que recopilan información, actualizando a mano hojas de cálculo, encontrando nuevas fuentes, encontrando errores…) el listado de personas indicado en la sección "sobre la iniciativa" del repositorio.
Para el equipo de trabajo más activo nos coordinamos a través de un chat de Telegram. Se plantean dudas y preguntas por ese canal para resolver cuestiones.
En las incidencias (issues) resolvemos también dudas y problemas que cualquiera puede plantear.
Algunas “madrinas” vuelcan manualmente los datos que encuentran en la hoja de cálculo común. A veces es sencillo: basta con copiar y pegar determinados valores numéricos, en otros el proceso es más pesado: extraer los datos de notas de prensa o de gráficos interactivos que no permiten descarga. En algunos casos, una vez encontrada la fuente de información estable y reutilizable se pueden automatizar procesos de extracción y procesamiento de los datos.
Por último está la tarea de unir todas las bases de datos en una única coherente y descargable. Eso se hace desde un script de R (también disponible) que unifica toda la información.
Hay personas que no participan de ese grupo de coordinación pero que aportan externamente: publican los datos que consiguen en repositorios abiertos que podemos reutilizar o realizan visualizaciones y detectan errores en nuestra base de datos.
@numeroteca se encarga, cada día, de revisar qué comunidades autónomas han sido actualizadas, y de contactar con cada “madrina” si hay algún problema con su comunidad. Para automatizar al máximo posible el proceso de recopilación se ha seguido la siguiente estrategia:
- si es posible se detecta dónde se publican los datos en abierto de cada comunidad.
- si esto no es posible se rellenan los datos de cada comunidad autónoma en una pestaña de una hoja de cálculo compartida.
- un script de R (https://code.montera34.com:4443/numeroteca/covid19/-/blob/master/analysis/process_spain_provinces_data.R) hace la función de unir todas las diferentes series de datos recogidas de cada comunidad autónoma y las salva en difentes formatos (csv, xlsx, rds)
Para verificar que los datos son correctos hemos generado una serie de herramientas imprescindibles que consisten sobre todo en visualizarlos para detectar errores:
- Análisis sobre la propia base de datos: https://lab.montera34.com/covid19-r/reports/informe-escovid19data.html
- Visualizaciones de datos diversas para poder detectar errores antes de publicar https://lab.montera34.com/covid19/
Todo lo publicamos en repositorios de git (https://github.com/montera34/escovid19data/) lo que permite ver cuáles son los cambios que hacemos cada día y ver estados anteriores del proyecto. (En Italia, por ejemplo, desde hace meses tienen un repositorio público donde tienen toda la información de forma robusta y cualquiera puede acceder a ella sin sustos de que mañana cambien la URL, desaparezca o lo eliminen).