-
Notifications
You must be signed in to change notification settings - Fork 0
/
notas.txt
17 lines (15 loc) · 979 Bytes
/
notas.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
1. O crawler vai bater na url https://greysec.net/forumdisplay.php?fid=46; (Done)
2. Para cada link que ele achar, verificar:
2.1 Se for um link de um post, vai enviar para a função de enviar a URL para o scraping;
2.2 Se for um link de next page, vai seguir esse link:
2.2.1 vai entrar e extrair os links da nova página de posts, e depois irá enviar para o passo 2.1
3. Função de scraping recebido pelo passo 2:
3.1 O nome do usuário
3.2 Quantidade de posts
3.3 Joined
3.4 Reputação
3.5 Informações de data e horário da postagem
3.6 Conteúdo do post
Os itens estão pegando apenas o primeiro autor e apenas salvando esse como se fosse um item so, junto com os dados da postagem.
Colocar dentro de um loop e criar um selector, para que a cada página fazer um scrape item por item. No momento ele só está pegando o primeiro que pega e salva no item, ignorando os outros.
Porém os posts contents está pegando direitinho.