Skip to content
Gabriel Taumaturgo edited this page Jun 26, 2018 · 8 revisions

Welcome to the Observatorio-google wiki!

Apresentação

https://docs.google.com/presentation/d/1OoOO_J6LX9f-9VqJG3GfM-0PSUMDFN9Rcaknr8usGjk/edit?usp=sharing

Organização

O projeto é dividido em 4 módulos: pesquisa automática, extração de dados, análise estatística, e servidor.

Pesquisa automática

O módulo de pesquisa automática se encontra no root e seu arquivo principal é roda_pesquisas.py. Esse módulo coleta resultados de pesquisas no google e dispõe isso para o módulo de extração. Feito isso, o mesmo encaminha os dados para o servidor.

Módulo de extração

O módulo de extração se encontra na pasta html_scanner e seu arquivo principal é html_scanner.py. É recebido um arquivo html como parâmetro e separa-se deste informações como: resultados da busca, principais notícias, resultados patrocinados, etc. Essas informações são retornadas ao módulo chamador ou dispostas na tela. Mais informações sobre esse módulo estão dispostas aqui.

Módulo de análise

Este módulo se encontra na pasta analysis e tem como arquivo principal data_frame_op.py. Como parâmetro, deve ser passado mais de um Json para que as análises sejam feitas. Na implementação atual, o mesmo resgata do banco de dados os Json's a partir de um nome de ator como input. Tendo esses requisitos supridos, ele irá fazer: Correlação entre o shared count(Quantas vezes foi compartilhado em redes socias) e a posição do link na pesquisa, contagem de repetição de domínios, e processamento textual dos previews de cada resultado. No processamento textual é usado o algoritmo tf-idf para relevância de palavras além de uma contagem decrescente dos termos que mais apareceram. Para mais informações sobre ele clique aqui. Caso seja desejado contribuir ao módulo clique aqui.