- 任务 1 数据预处理
本任务的主要工作是从原始的金庸小说文本中,抽取出与人物互动相关的数据,而屏蔽掉与人物关系无关的文本内容,为后面的基于人物共现的分析做准备。 输入输出
数据输入:
1.全本的金庸武侠小说文集(未分词);2. 金庸武侠小说人名列表
数据输出:
分词后,仅保留人名的金庸武侠小说全集
示例
输入:金庸 03 连城诀.txt 中的某一段内容
狄云和戚芳一走到万家大宅之前,瞧见那高墙朱门、挂灯结彩的气派,心中都是暗自嘀咕。戚芳紧紧拉住了父亲的衣袖。戚长发正待向门公询问,忽见卜垣从门里出来,心一喜,叫道:“卜贤侄,我来啦。”
输出:
狄云 戚芳 戚芳 戚长发 卜垣
- 任务 2 特征抽取:人物同现统计
基于单词同现算法的任务关系分析算法。统计人物对在同一段落中出现的次数。
输入输出
输入:
任务 1 的输出;
输出:
在金庸的所有武侠小说中,人物之间的同现次数。
示例
输入:
狄云 戚芳 戚芳 戚长发 卜垣
戚芳 卜垣 卜垣
输出:
狄云,戚芳 1
戚长发,狄云 1
狄云,戚长发 1
戚长发,戚芳 1
狄云,卜垣 1
戚长发,卜垣 1
戚芳,狄云 1
卜垣,狄云 1
戚芳,戚长发 1
卜垣,戚芳 2
戚芳,卜垣 2
卜垣,戚长发 1
- 任务 3 特征处理:人物关系图构建与特征归一化
用邻接表表示人物关系图,并统计人物共现概率。
输入输出
输入:
任务 2 的输出
输出:
归一化权重后的人物关系图
示例
输入:
狄云,戚芳 1
戚长发,狄云 1
狄云,戚长发 1
戚长发,戚芳 1
狄云,卜垣 1
戚长发,卜垣 1
戚芳,狄云 1
卜垣,狄云 1
戚芳,戚长发 1
卜垣,戚芳 2
戚芳,卜垣 2
卜垣,戚长发 1
输出:
狄云 [戚芳,0.33333|戚长发,0.333333|卜垣 0.333333]
戚芳 [狄云,0.25 |戚长发,0.25|卜垣 0.5]
戚长发 [狄云,0.33333|戚芳,0.333333|卜垣 0.333333]
卜垣 [狄云 0.25|戚芳,0.5|戚长发,0.25]
- 任务 4 数据分析:基于人物关系图的 PageRank 计算
使用PageRank计算pr值实验分工
- 任务分配相关:
1.从 https://github.com/njuyang14/jinyong-jianghu fork项目
2.git clone https://github.com/<自己的github用户名>/jinyong-jianghu
3.创建分支git checkout -b <自己的任务名字,参见项目文件夹名称>
4.在test文件夹中创建自己的工程文件或者是用到的工具包,完成实验并做好commit记录
5.git push origin local_branch:remote_branch上传到自己的github上
例如:git push origin PreProcessing:PreProcessing
6.在github上发起pull request(类似第一次实验),由本人来接收,大家不要修改master里面的内容。