Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Preparación de datos de los ficheros juridicas1y2 #5

Open
wants to merge 28 commits into
base: main
Choose a base branch
from

Conversation

elsatch
Copy link

@elsatch elsatch commented Apr 4, 2022

He estado revisando los ficheros juridicas_1.csv.gz y juridicas_2.csv.gz. He añadido las cabeceras para las columnas y separado el cif del beneficiario de la descripción. El proceso se puede seguir a través del cuaderno de Jupyter.

Como salida he regenerado los ficheros originales con un nuevo nombre para evitar colisiones.

@santifinland
Copy link

Los fichero es formato gzip no son splitables.
Su tratamiento por software de big data como Spark es ineficiente.
Sugiero cambiar la compresión a bzip2

Por otro lado, el formato csv es muy cómodo visualemente, pero no permite almacenar esquema. En big data el estándar es parquet con compresión snappy.

Ánimo!!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants