Preparación de datos de los ficheros juridicas1y2 #5

elsatch · 2022-04-04T02:09:32Z

He estado revisando los ficheros juridicas_1.csv.gz y juridicas_2.csv.gz. He añadido las cabeceras para las columnas y separado el cif del beneficiario de la descripción. El proceso se puede seguir a través del cuaderno de Jupyter.

Como salida he regenerado los ficheros originales con un nuevo nombre para evitar colisiones.

Este fichero ha pasado a ser el de eda-estructura-admon.

santifinland · 2022-04-06T07:10:12Z

Los fichero es formato gzip no son splitables.
Su tratamiento por software de big data como Spark es ineficiente.
Sugiero cambiar la compresión a bzip2

Por otro lado, el formato csv es muy cómodo visualemente, pero no permite almacenar esquema. En big data el estándar es parquet con compresión snappy.

Ánimo!!

cesargarciasaez@gmail.com added 5 commits April 4, 2022 03:46

Preparacion y exportacion de datos de juridicas

b48af6c

Creado report perfilado datos juridicas1y2

9b3ed17

Creados ficheros con cabeceras y cif separado

9f5f062

Comentada la creación del report pandas profiling

fbf4355

Creado perfilado datos convocatorias

7e5ef48

dieghernan mentioned this pull request Apr 4, 2022

Encabezados de los archivos #11

Open

cesargarciasaez@gmail.com and others added 13 commits April 4, 2022 13:08

Borrador cruce datos. Pendiente unión dataframes.

cc4c95f

Aclaración sobre ID e IDConv en ambos ficheros

87bfed9

Version inicial del dataset cruzado

cdf8f50

Merge branch 'JaimeObregon:main' into main

fad93dc

Reorganizada la estructura para mayor claridad

4efaf5a

Merge branch 'main' of github.com:elsatch/subvenciones

7284a61

Explicación:no se puede saber la provincia via CIF

0ff0c56

Formateo adicional del contenido

900fa15

Creada información sobre convocantesN123

d061bb4

Información y análisis sobre los convocantes

2da2e9b

Delete descarga-estructura-admon-N.ipynb

5530e21

Este fichero ha pasado a ser el de eda-estructura-admon.

Revisado el formato y eliminado lo obsoleto

393971e

Merge branch 'main' of github.com:elsatch/subvenciones

11f4827

elsatch and others added 10 commits April 7, 2022 01:02

Creado notebook para analisis de similaridad

a00a684

Descargados últimos cambios

aa5bb17

Breve aclaración sobre posibles usos

b3c5573

Publicados resultados iniciales de similitud N1

b65e634

Creado encabezado fichero descargas

9e6440d

Merge branch 'main' of https://github.com/elsatch/subvenciones

16ecf91

Generado primer borrador de Great Expectations

e6f45f9

Actualizado formato, mejor visualización en github

f976995

Visualizacion estructura Nivel C y otros

ab6b5c4

Creación de visualizaciones por mes y año de conv.

7f04389

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Preparación de datos de los ficheros juridicas1y2 #5

Preparación de datos de los ficheros juridicas1y2 #5

elsatch commented Apr 4, 2022

santifinland commented Apr 6, 2022

Preparación de datos de los ficheros juridicas1y2 #5

Are you sure you want to change the base?

Preparación de datos de los ficheros juridicas1y2 #5

Conversation

elsatch commented Apr 4, 2022

santifinland commented Apr 6, 2022