-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathscraping-tweets.R.txt
93 lines (76 loc) · 2.92 KB
/
scraping-tweets.R.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
# DATOS DE OAUTH
# APP PREVIAMENTE CREADA EN https://apps.twitter.com/
APP_NAME <- ""
API_KEY <- ""
SECRET_KEY <- ""
# SETEO DE ACTIVIDADES A REALIZAR
MONGODB_EXPORT = TRUE
# Streaming -para escuchar tweets actuales- o Search -para buscar ultimos 10 dias-
TIPO_ESCUCHA = 'Search'
# SETEO EL DIRECTORIO DONDE SE GUARDARAN LOS JSON
DIRECTORIO <- ""
setwd(DIRECTORIO)
# CHEQUEO SI DEBO INSTALAR LAS LIBRERÍAS QUE VOY A USAR Y EN SI CORRESPONDE LAS INSTALO
librerias_instaladas<-rownames(installed.packages())
# Librería: rtweet
if("rtweet" %in% librerias_instaladas == FALSE) {
install.packages("rtweet", dependencies = TRUE)
}
# Librería: mongolite
if("mongolite" %in% librerias_instaladas == FALSE) {
install.packages("mongolite", dependencies = TRUE)
}
## Cargo las librerías que voy a usar
library(rtweet)
library(mongolite)
# DATOS DE LAS BÚSQUEDAS
tokens_busqueda<-c("Messi", "dólar", "Macri", "Selección", "Trump", "FMI", "Dujovne", "inflación", "Kirchner", "Carrió", "tarifas", "edenor", "sampaoli", "femicidio", "aborto", "oficialismo", "oposición", "Vidal", "Tinelli", "Tapia", "FIFA", "Gripe")
# UBICACION<-"Buenos Aires"
CANTIDAD<-600
IDIOMA <- "es"
MINUTOS<-10
for(QUERY in tokens_busqueda){ # Por cada token
print(paste("Se procesa el token ", QUERY))
# Se genera el token con la autenticación en caso de no estar generado
if (!exists("twitter_token"))
twitter_token <- create_token(app = APP_NAME, API_KEY, SECRET_KEY, set_renv = TRUE)
if(TIPO_ESCUCHA=='Streaming'){
tweets<-stream_tweets(
parse = TRUE,
q=QUERY,
timeout = 60*MINUTOS,
include_rts = FALSE,
language = IDIOMA,
file_name = "tweets-DMUBA.json"
)
} else { # Busqueda en los tweets de los últimos 7-10 días
# Se buscan los tweets en función de los parámetros
tweets<-search_tweets(
lang = IDIOMA,
q=QUERY,
# geocode = lookup_coords(UBICACION),
n = CANTIDAD,
include_rts = FALSE,
token = twitter_token,
retryonratelimit = TRUE,
type = "mixed"
)
}
# Se separan los features de los usuarios
users<- users_data(tweets)
# Se agrega información de latitud y longitud en función de los parámetros de georeferenciación
tweets <- lat_lng(tweets)
# Elimino los espacios en los nombres de las variables
names(tweets) = gsub(" ","",names(tweets))
names(users) = gsub(" ","",names(users))
if(MONGODB_EXPORT) {
# Creo la conexión con las colecciones y la DB
coleccion.tweets = mongo(collection = paste("tweets_mongo-",QUERY, sep = ""), db = "DMUBA")
coleccion.users = mongo(collection = paste("users_mongo-",QUERY, sep = ""), db = "DMUBA")
# Inserto los tweets en las dos colecciones de la DB
coleccion.tweets$insert(tweets)
coleccion.users$insert(users)
coleccion.tweets$export(file(paste(QUERY,"-dump_tweets.json", sep = "")))
coleccion.users$export(file(paste(QUERY,"-dump_users.json", sep = "")))
}
}