本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。
- 古诗词按朝代进行划分,存储于文件夹"诗歌数据集"下,命名规则为"朝代.csv"。诗词数量多的朝代被分成多个文档,以避免单个文档过大;
- 跨朝代的诗人,以诗人出生的朝代进行划分,如若诗人出生于明末,生活在清初,则该诗人的作品仅收录在文件"明.csv"中;
- 每首诗词数据包含五个字段,分别为"标题"、"朝代"、"作者"、"体裁"、"内容"。其中"体裁"字段记录着该诗的文学体裁,如"五言绝句"、"词"、"古风"……;
- 针对词这种体裁,词的标题一般由"词牌名"和"题目"构成,本语料库在整理时将词标题的命名格式统一成"词牌名[空格]题目"。PS:(1)某些词数据不包含题目,而仅由词牌名构成,针对该情况,本语料库将标题统一成"词牌名"。(2)某些词同一个词牌和标题下会有好几首,作为区分诗人会添加"其一"/"其二"等标识,本语料库将该情况下的标题信息统一成"词牌名[空格]其X[空格]题目",其中X代表一二三……;
朝代 | 数量 |
---|---|
先秦 | 576 |
秦 | 9 |
汉 | 753 |
魏晋 | 2425 |
南北朝 | 4705 |
隋 | 1266 |
唐 | 54156 |
宋 | 268665 |
辽 | 25 |
金 | 8357 |
元 | 70574 |
明 | 294587 |
清 | 246698 |
近现代 | 30372 |
当代 | 31340 |
先秦至清朝的诗词曲等体裁共计952816首,其中词、五言绝句、五言律诗、七言绝句、七言律诗具体信息如下表所示
体裁 | 数量 |
---|---|
词 | 83364 |
五言绝句 | 35574 |
五言律诗 | 145068 |
七言绝句 | 196356 |
七言律诗 | 217215 |