软件依赖:Hadoop 2.7.3,JDK 1.8
执行环境配置:建议使用docker搭建执行环境。具体参见https://github.com/ruoyu-chen/hadoop-docker
测试数据下载自http://www.limfinity.com/ir/data/hollins.dat.gz。
经过处理后,原始数据格式被转化为如下的邻接链表形式:
src, pr, dest1, dest2, ..., destn
其中src为源页面id,pr为当前轮src页面的PageRank值,destx为源页面所指向的目标页面id。
经过处理后的测试数据(pr.dat文件)可以从百度云下载:
链接: https://pan.baidu.com/s/1jI82WU6 密码: vaef
安装配置好Hadoop运行环境后,需要将pr.dat文件上传到HDFS的/pr目录下,可以使用以下命令:
# [创建/pr目录]
hadoop fs -mkdir /pr
# [上传测试文件]
hadoop fs -put /code/pr.dat /pr
运行下列代码,向集群提交任务:
hadoop jar MapReducePR.jar cn.edu.bistu.mrpr.PageRankJob /pr/
程序执行完毕后,执行结果存放在HDFS文件系统中的/output目录下最新的一个目录中
Data-Intensive Text Processing with MapReduce https://lintool.github.io/MapReduceAlgorithms/index.html