Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
textrank.py		textrank.py

README.md

TextRank

使用textrank4zh包（letiantian/TextRank4ZH: 从中文文本中自动提取关键词和摘要）实现。
直接在测试集上运行并得到结果。
注意textrank4zh包有个问题，它会自己做一个分句，可能在数据集原本的分句方式的基础上二度分句。我在本代码中对此的处理方式就是将安装textrank4zh位置的util.py（我的路径是.local/lib/python3.8/site-packages/textrank4zh/util.py）第22句sentence_delimiters = ['?', '!', ';', '？', '！', '。', '；', '……', '…', '\n']直接改成sentence_delimiters = ['\n']。此外，我准备接下来直接去掉对textrank4zh包的依赖，所以不专门在此之前对这一问题进行其他的处理了。
暂不支持自动分句功能，要求原文中即含分句token。

首先需要安装textrank4zh包及其所需的前置包。建议使用的脚本代码（Linux端）：

pip install jieba
pip install numpy
pip install networkx[default]
git clone https://github.com/letiantian/TextRank4ZH.git
cd TextRank4ZH
python setup.py install --user

直接调用textrank.py即可运行。
入参：
--dataset_folder_path 内含test.src的数据集文件夹（如果selected_num小于等于0，则还需要有train.tgt）（支持绝对和相对路径）
--result_folder_path 输出值将打印在该文件夹下的result_file_name文本文件中（支持绝对和相对路径）
--result_file_name 输出文件名
--selected_num 选择几句话作为输出。如果该值大于0，将选择该值数目；反之，则以训练集样本摘要平均句子数目为该值数目

工作计划和项目日志：

增加对自动分句功能的支持
增加输出结果示例
增加对dataset_folder_path和result_folder_path使用不严格文件夹路径写法的容错支持
脱离对textrank4zh包的需求，完全重写
增加对selected_num超出原文句数情况的考虑

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

textrank

textrank

README.md

TextRank

Files

textrank

Directory actions

More options

Directory actions

More options

Latest commit

History

textrank

Folders and files

parent directory

README.md

TextRank