古诗词爬虫和文本挖掘

爬虫和文本挖掘部分代码和数据开源

spider：爬虫和数据清洗代码，文件具体功能见第一行注释
data：数据整理结果，包括13个朝代的3万多条诗人数据，85万多首诗词数据，10万多条意象数据，近2万首含译注赏析的诗词数据，以及各个朝代不同省市的诗人信息
topic_model&LSA：主题聚类和推荐模型
GPT2-Chinese-old_gpt_2：GPT2实现藏头诗生成，含训练好的模型，可以输入格律、风格和藏头字，自动生成藏头诗，主要参考https://github.com/Morizeyao/GPT2-Chinese
bert2transformer_on_NMT：Bert实现翻译模型，含训练好的模型，输入文言文或者古诗词，会自动生成相应的白话文翻译，主要参考https://github.com/rjk-git/bert2transformer_on_NMT

由于github文件大小限制，仓库里主要包含代码文件，完整的代码、所有数据和训练好的模型文件存于百度网盘（链接: https://pan.baidu.com/s/1ExaqJ4O35MZP-EQrgoFCIA 提取码: hg5j）

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
GPT2-Chinese-old_gpt_2		GPT2-Chinese-old_gpt_2
bert2transformer_on_NMT		bert2transformer_on_NMT
spider		spider
topic_model&LSA		topic_model&LSA
README.md		README.md