Skip to content

FAQ Preguntas más frecuentes

numeroteca edited this page Sep 15, 2020 · 3 revisions

¿De dónde surgió la idea de crear EsCovid19Data?

Poco antes de declararse el Estado de Alarma nos dimos cuenta de que no existía información detallada sobre la COVID-19. Cada cual por separado, porque todavía no nos conocíamos, encontramos primero, el repositorio donde Datadista transformaba a formatos abiertos la información por comunidades autónomas que el Ministerio de Sanidad publicaba en PDF. Como queríamos datos más detallados hicimos @numeroteca y @ProsumidorSoc un llamamiento inicial por Twitter para recopilar datos por provincias y poco a poco nos fuimos conociendo y encontrando. Cada persona se encargaba, y se encarga, de conseguir los datos de una comunidad autónoma o provincia.

El número de personas aumentando con nuevas personas dando relevo a otras que llevaban desde el principio. Las provincias de cada comunidad autónoma son “amadrinadas” por una persona: es decir, esa persona se ocupa de recopilar los datos de esa comunidad autónoma.

Han colaborado de alguna forma u otra en el proyecto (indicando fuentes, creando scripts que recopilan información, actualizando a mano hojas de cálculo, encontrando nuevas fuentes, encontrando errores…) el listado de personas indicado en el README.

¿Cómo os organizáis?

Para el equipo de trabajo más activo nos coordinamos a través de un chat de Telegram. Se plantean dudas y preguntas por ese canal para resolver cuestiones.

En las incidencias (issues) resolvemos también dudas y problemas que cualquiera puede plantear.

¿En qué se concretan las tareas habituales?

Algunas “madrinas” vuelcan manualmente los datos que encuentran en la hoja de cálculo común. A veces es sencillo: basta con copiar y pegar determinados valores numéricos, en otros el proceso es más pesado: extraer los datos de notas de prensa o de gráficos interactivos que no permiten descarga. En algunos casos, una vez encontrada la fuente de información estable y reutilizable se pueden automatizar procesos de extracción y procesamiento de los datos.

Por último está la tarea de unir todas las bases de datos en una única coherente y descargable. Eso se hace desde un script de R (también disponible) que unifica toda la información.

Hay personas que no participan de ese grupo de coordinación pero que aportan externamente: publican los datos que consiguen en repositorios abiertos que podemos reutilizar o realizan visualizaciones y detectan errores en nuestra base de datos.

¿Qué herramientas usáis?

@numeroteca se encarga, cada día, de revisar qué comunidades autónomas han sido actualizadas, y de contactar con cada “madrina” si hay algún problema con su comunidad. Para automatizar al máximo posible el proceso de recopilación se ha seguido la siguiente estrategia:

Para verificar que los datos son correctos hemos generado una serie de herramientas imprescindibles que consisten sobre todo en visualizarlos para detectar errores:

Todo lo publicamos en repositorios de git (https://github.com/montera34/escovid19data/) lo que permite ver cuáles son los cambios que hacemos cada día y ver estados anteriores del proyecto. (En Italia, por ejemplo, desde hace meses tienen un repositorio público donde tienen toda la información de forma robusta y cualquiera puede acceder a ella sin sustos de que mañana cambien la URL, desaparezca o lo eliminen).