O desafio de projeto Criando um ecossistema Hadoop totalmente gerenciado com Google Cloud Platform faz parte do bootcamp Cognizant Cloud Data Engineer #2, promovido pela plataforma da Digital Innovation One Inc.
O objetivo é efetuar um processamento de dados utilizando o serviço Dataproc do GCP. Nesse processamento efetua-se a contagem das palavras de um livro e informa-se quantas vezes cada palavra aparece no arquivo.
-
Criar um bucket no Cloud Storage.
-
Atualizar o arquivo do código
contador.py
com o nome do bucket nas linhas que contém{SEU_BUCKET}
. -
Fazer o upload dos arquivos
contador.py
elivro.txt
para o bucket criado (conforme instruções abaixo). -
Utilizar o código em um cluster Dataproc para execução de um Job do tipo PySpark, chamando
gs://{SEU_BUCKET}/contador.py
.
- O Job gera uma pasta chamada
resultado
no bucket. Dentro dessa pasta, o arquivopart-00000
conterá a lista de palavras e quantas vezes se repetem em todo o livro.
- Criar um repositório no GitHub.
- Criar um arquivo chamado
resultado.txt
. Dentro desse arquivo, colocar as 10 palavras que mais são usadas no livro, de acordo com o resultado do Job. - Inserir os arquivos
resultado.txt
epart-00000
no repositório e informar na plataforma da Digital Innovation One.
NOTA: Se o Job mostrar um WARN de Interrupt, basta ignorar. Existe um bug no Hadoop que é conhecido e isso não impacta no processamento.
Qualquer outra dúvida, informação ou sugestão pode ser tratada com o professor: marcelo@smarques.com.
Carla Edila Silveira
Contato: rosa.carla@pucpr.edu.br