Skip to content

lugialo/eg-dados-apache-spark

Repository files navigation

Projeto: Apache Spark com Delta Lake e Apache Iceberg

Este repositório apresenta um ambiente configurado com Apache Spark, Delta Lake e Apache Iceberg, utilizando PySpark e Jupyter Lab. O projeto foi desenvolvido como parte da disciplina de Engenharia de Dados.

Participantes

Requisitos do Projeto

  • Apache Spark
  • Delta Lake
  • Apache Iceberg
  • Python 3.13
  • UV

1. Clonando o repositório

git clone https://github.com/lugialo/eg-dados-apache-spark.git
cd eg-dados-apache-spark

2. Configurando o ambiente Python

No Linux, abrir o Terminal e executar o comando abaixo para instalar o UV (caso não tenha):

curl -LsSf https://astral.sh/uv/install.sh | sh
# caso você não tenha o curl instalado, pode usar o wget pra instalar também:
wget -qO- https://astral.sh/uv/install.sh | sh

3. Crie o ambiente com o venv

uv venv

4. Acesse o ambiente

source .venv/bin/activate

4. Instalando as dependencias

uv pip install .

5. Iniciando o Jupyter Lab

jupyter-lab

6. Estrutura do Projeto

eg-dados-apache-spark/
├── notebooks/
    ├── delta-lake.ipynb
    ├── pyspark-iceberg.ipynb
├── data/covid-19/vaccinations.csv
├── pyproject.toml
└── README.md

6. Fontes de dados

7. Referências

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •