Input: grafo delle citazioni dal dataset DBLP: sia con nodi che rappresentano autori che con nodi che rappresentano articoli
Output: costruzione dei Knowledge Graphs relativi agli articoli e agli autori secondo l'ontologia di dominio di DBLP
Uso:
- Creare i grafi di citazioni tra articoli e tra autori in formato .graphml tramite il tool dblp
- Importare i grafi generati su Neo4J tramite il tool neo4j-graphml
- Creare l'ontologia aggiornata di SwetoDBLP tramite swetoDBLP Parser
- Importare l'ontologia in formato XML/RDF su BlazeGraph
- Lanciare spark-submit specificando i seguenti parametri:
- BOLT url di Neo4j
- Username di Neo4j
- Password di Neo4j
- SPARQL Endpoint di BlazeGraph
- Numero di nodi da aggiornare per ogni batch
- Indice del primo nodo (in Neo4J)
- Indice dell'ultimo nodo (in Neo4J)
$SPARK_HOME/bin/spark-submit \ --class "main.Main" \ --master yarn \ --driver-memory 12g \ --conf spark.neo4j.bolt.url=<url> \ --conf spark.neo4j.bolt.user=<user> \ --conf spark.neo4j.bolt.password=<password> \ --packages neo4j-contrib:neo4j-spark-connector:2.0.0-M2,graphframes:graphframes:0.2.0-spark2.0-s_2.11,com.blazegraph:bigdata-core:2.0.0 \ ./bdproject-0.0.1-SNAPSHOT.jar \ <blazegraph.url> kb <batch.size> <index.first> <index.last>