Grupo: Joshua, Daniela e Emely
Projeto desenvolvido para demonstração do Apache Spark local (PySpark), gravando arquivos no formato Delta Lake de forma local. O projeto contempla:
- Criação de modelo entidade-relacionamento (ER),
- Geração de imagens e códigos DDL,
- Uso de fonte de dados públicos,
- Evidenciação e explicação, com exemplos, dos comandos
INSERT
,UPDATE
eDELETE
.
Para o projeto, utilizamos este modelo ER para as seguintes tabelas:
carro_delta
cliente_delta
vendas_delta
O projeto Python foi inicializado com o gerenciador uv.
Comandos utilizados para configurar o ambiente:
uv init
uv venv
source .venv/bin/activate
uv add pyspark==3.5.3 delta-spark==3.2.0 jupyterlab ipykernel
Ver arquivo de INSERT, UPDATE e DELETE nas tabelas Delta
Para o projeto, utilizamos este modelo ER para as seguintes tabelas:
carro_iceberg
cliente_iceberg
vendas_iceberg
O projeto Python foi inicializado com o gerenciador uv.
Comandos utilizados para configurar o ambiente:
uv init
uv venv
source .venv/bin/activate
uv add pyspark==3.5.3 jupyterlab ipykernel