Skip to content

用清华大学开放中文词库数据建立的pyim 输入法]词库. 已基于词频统计信息DF值(Document Frequency)优化

Notifications You must be signed in to change notification settings

redguardtoo/pyim-tsinghua-dict

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

pyim-tsinghua-dict

THUOCL:清华大学开放中文词库 数据建立的 pyim 输入法 的词库. 已基于词频统计信息DF值(Document Frequency)优化.

DF值小于等于10的词都被排除,相对原始数据词汇量少了一半.可以提高输入法的速度,减少内存消耗.

安装和使用

将 pyim-tsinghua-dict 添加到 load-path, 然后:

(require 'pyim-tsinghua-dict)
(pyim-tsinghua-dict-enable)

除了上述方法,用户也可以运行 `pyim-dict-manager’ 命令,然后按提示添加 pyim-tsinghua-dict.pyim 词库文件。

Utils 相关文件

  1. “mkdict.py” 是生成 pyim-tsinghua-dict.pyim 的工具。
  2. “hanzi.csv” 记录着汉字对应的拼音。
  3. “words-with-freq-sorted-by-pinyin.csv” 是把词库的数据另存为csv格式. 以供研究。

版权

使用了清华大学开放中文词库, 韩世依, 张钰晖, 马云山, 涂存超, 郭志芃, 刘知远, 孙茂松. THUOCL:清华大学开放中文词库. 2016.

由我编辑整理,仅供个人研究、交流学习使用,不涉及商业盈利目的。如涉及版权问题,请联系我予以更改或删除.

About

用清华大学开放中文词库数据建立的pyim 输入法]词库. 已基于词频统计信息DF值(Document Frequency)优化

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published