Projeto: Apache Spark com Delta Lake e Apache Iceberg

Este repositório apresenta um ambiente configurado com Apache Spark, Delta Lake e Apache Iceberg, utilizando PySpark e Jupyter Lab. O projeto foi desenvolvido como parte da disciplina de Engenharia de Dados.

Participantes

Anna Clara Teixeira de Medeiros - https://github.com/annaclaratxm
Gabriel Antonin Pascoali - https://github.com/lugialo
Vinicius Teixeira Colombo - https://github.com/viniciuscolombo

Requisitos do Projeto

Apache Spark
Delta Lake
Apache Iceberg
Python 3.13
UV

1. Clonando o repositório

git clone https://github.com/lugialo/eg-dados-apache-spark.git
cd eg-dados-apache-spark

2. Configurando o ambiente Python

No Linux, abrir o Terminal e executar o comando abaixo para instalar o UV (caso não tenha):

curl -LsSf https://astral.sh/uv/install.sh | sh
# caso você não tenha o curl instalado, pode usar o wget pra instalar também:
wget -qO- https://astral.sh/uv/install.sh | sh

3. Crie o ambiente com o venv

uv venv

4. Acesse o ambiente

source .venv/bin/activate

4. Instalando as dependencias

uv pip install .

5. Iniciando o Jupyter Lab

jupyter-lab

6. Estrutura do Projeto

eg-dados-apache-spark/
├── notebooks/
    ├── delta-lake.ipynb
    ├── pyspark-iceberg.ipynb
├── data/covid-19/vaccinations.csv
├── pyproject.toml
└── README.md

6. Fontes de dados

Dados públicos utilizados
Estrutura das tabelas com modelo ER incluída nos notebooks.

7. Referências

Canal DataWay BR
Repositórios:

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
.ipynb_checkpoints		.ipynb_checkpoints
data/covid-19		data/covid-19
docs		docs
notebooks		notebooks
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
mkdocs.yml		mkdocs.yml
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projeto: Apache Spark com Delta Lake e Apache Iceberg

Participantes

Requisitos do Projeto

1. Clonando o repositório

2. Configurando o ambiente Python

3. Crie o ambiente com o venv

4. Acesse o ambiente

4. Instalando as dependencias

5. Iniciando o Jupyter Lab

6. Estrutura do Projeto

6. Fontes de dados

7. Referências

About

Releases

Packages

Contributors 3

Languages

lugialo/eg-dados-apache-spark

Folders and files

Latest commit

History

Repository files navigation

Projeto: Apache Spark com Delta Lake e Apache Iceberg

Participantes

Requisitos do Projeto

1. Clonando o repositório

2. Configurando o ambiente Python

3. Crie o ambiente com o venv

4. Acesse o ambiente

4. Instalando as dependencias

5. Iniciando o Jupyter Lab

6. Estrutura do Projeto

6. Fontes de dados

7. Referências

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages