Este projeto tem como objetivo realizar a extração de alguns dados do site amazon.com utilizando a biblioteca BeautifulSoup e enviá-los para o google sheets. Dados extraidos:
- Link do produto
- Nome do produto
- Valor
- Avaliação (nota)
- Disponibilidade (Em estoque)
O código deve ser executado sem problemas usando Python versões 3 com as seguintes bibliotecas:
- Web Scrapping: BeautifulSoup
- Google Integrations: Oauth2client, gspread
-
Crie um projeto na sua conta do Google Drive.
- Habilite as APIs do Google Drive e Google Sheets.
- Crie as credenciais de acesso e gere o arquivo JSON, salve como "credenciais.json"
- Tutorial: https://pt.linkedin.com/pulse/manipulando-planilhas-do-google-usando-python-renan-pessoa
-
Faça login na sua conta amazon e na página inicial acesse o inspetor do navegador (F12)
- Procure por Rede, no primeiro link que aparecer clique com o botão direito do mouse e vá em Copiar valor > Copiar como cURL
- Acesse o site: https://curlconverter.com/ copie o cCurl e converta em JSON.
- Acesse o site: https://jsoneditoronline.org/#left=local.pelema e salve como "url_parameters.json"
-
Abra o arquivo "links.csv" e informe todas as URLs que você deseja buscar, cada URL em uma linha (mantenha o cabecalho)
-
Abra o arquivo "web_scraping.py" e na linha 83 informe o ID do seu Google Sheets.
- Dados
- links.csv - tabela com a lista de links que voce deseja buscar
- requirements.txt - lista das bibliotecas necessarias para rodar o codigo
- web_scraping.py - Código em python para fazer o web scraping
ATENÇÃO: Não se esqueça de criar os arquivos JSON descritos na etapa Instruções de instalação
Toda vez que você rodar o código, serão adicionadas novas linhas com a data/hora que foi realizado a consulta.