Este repositório apresenta um ambiente configurado com Apache Spark, Delta Lake e Apache Iceberg, utilizando PySpark e Jupyter Lab. O projeto foi desenvolvido como parte da disciplina de Engenharia de Dados.
- Anna Clara Teixeira de Medeiros - https://github.com/annaclaratxm
- Gabriel Antonin Pascoali - https://github.com/lugialo
- Vinicius Teixeira Colombo - https://github.com/viniciuscolombo
- Apache Spark
- Delta Lake
- Apache Iceberg
- Python 3.13
- UV
git clone https://github.com/lugialo/eg-dados-apache-spark.git
cd eg-dados-apache-spark
No Linux, abrir o Terminal e executar o comando abaixo para instalar o UV (caso não tenha):
curl -LsSf https://astral.sh/uv/install.sh | sh
# caso você não tenha o curl instalado, pode usar o wget pra instalar também:
wget -qO- https://astral.sh/uv/install.sh | sh
uv venv
source .venv/bin/activate
uv pip install .
jupyter-lab
eg-dados-apache-spark/
├── notebooks/
├── delta-lake.ipynb
├── pyspark-iceberg.ipynb
├── data/covid-19/vaccinations.csv
├── pyproject.toml
└── README.md
- Dados públicos utilizados
- Estrutura das tabelas com modelo ER incluída nos notebooks.