Skip to content

Pipeline de Dados: usandoa linguagem python construir a técnica ETL (extrair, transformar e carregar).

Notifications You must be signed in to change notification settings

matheussooares/make-data-netflix

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 

Repository files navigation

Considerações iniciais

  • Dataset no GitHub: os dados são fictícios da empresa Netflix.

  • Pacotes utilizados: pip install pandas pip install openpyxl pip install xlsxwriter

  • Virtual Enviroment ou ambiente virtual: serve para encapsular a aplicação, sem ficar prezo a versões diferentes. Mais informações sobre ambiente virtuais em python, basta acessar o link. Para criar e ativar um ambiente:

    python -m venv venv
    
    venv/scripts/activate
    

    Caso esteja no windows e o powershell apresentar uma restrinção. Vá no Windows Powershell(Admin), e usar o comando;

    Set-ExecutionPolicy -Scope CurrentUser -ExecutionPolicy RemoteSigned
    
  • Código Fonte (src): Códigos fontes e arquivos do projeto, dataset etc.

    • Na pasta (data) é armazenado os dados, que estão divididos entre:
      • raw: todos os dados de maneira bruta ou cru;
      • ready: dados tratados, ou seja, passou pelo seu respectivo processo de tratamento.
    • Em (scripts) é armazenados outros códigos relacionados a outras execuções

Pipeline de dados

A técnica utilizada foi a ETL (extrair, transformar e carregar), prezanda pela confiabilidade e rastreabilidade dos dados.

Os dados brutos estão localizados na pasta raw, e foram extraidos do Dataset no GitHub.

Para a transformação dos dados brutos é sugerido colocar todas as tabelas em um único aquivo (.xlsx). A adição das colunas "location" e "file_name" é para validar a rastreabilidade dos dados.

Por fim, os dados são carregados na ready e estão disponíveis para a análise de BI.

Referências

  1. ETL Com Python - Como Manipular Grandes Massas de Dados com Python

About

Pipeline de Dados: usandoa linguagem python construir a técnica ETL (extrair, transformar e carregar).

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages