ReadWiki-ZH

从中文Wiki Dump中提取有效词条并转换至文本文件或Markdown文件。
有效词条：非Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, Help等类型词条，多个同义词保留其中一个词条。

1. 环境配置

测试环境： Python 3.7.4， Ubuntu 18.04， Windows 7
虚拟环境中安装依赖项

pip install -r requirements.txt

2. 下载中文Wiki Dump

2.1 Wget下载

需安装`Wget。

from readwiki.wiki_download import WIKIDownload

# 选择Dump Index及输出文件夹
archive = '20200220'
output_dir = './dump'
print('Downloading dump:', archive)

# 使用Wget下载Dump文件
downloader = WIKIDownload(output_dir)
xml_path, txt_path = downloader.run(archive, verbose=True)

print('Index txt:', txt_path)
print('Content xml:', xml_path)

2.2 手动下载

在中文Dump Index页面下选择一个归档日期。归档日期越新，包含的词条越多。
选择20200220后(也可选择其他日期)，下载以下两个文件，并解压至dump文件夹。

zhwiki-20200220-pages-articles-multistream.xml.bz2 1.9 GB
zhwiki-20200220-pages-articles-multistream-index.txt.bz2 26.9 MB

3. 提取有效词条至文件

from readwiki.wiki_parse2doc import WIKIParse2Doc

# Dump文件地址
xml_path = './dump/zhwiki-20200220-pages-articles-multistream.xml.bz2'

# 提取前100个有效词条至TXT文件
WIKIParse2Doc(xml_path, './docs/words_txt').run(num=100)
# 提取前100个有效至Markdown文件
WIKIParse2Doc(xml_path, './docs/words_md', markdown=True).run(num=100)

设置num=None，提取全部有效词条。
词条共3430255个，有效词条1098595个。
提取完成后，输出文件可在docs文件夹查看。
几个输出示例：数学，开放源代码，邓丽君

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
docs		docs
dump		dump
readwiki		readwiki
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
example.py		example.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ReadWiki-ZH

1. 环境配置

2. 下载中文Wiki Dump

2.1 Wget下载

2.2 手动下载

3. 提取有效词条至文件

About

Releases

Packages

Languages

License

quqixun/ReadWiki-ZH

Folders and files

Latest commit

History

Repository files navigation

ReadWiki-ZH

1. 环境配置

2. 下载中文Wiki Dump

2.1 Wget下载

2.2 手动下载

3. 提取有效词条至文件

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages