简单的单词拼写纠错脚本
#原理 用编辑距离衡量两个单词的相近程度, 结果是返回与输入的单词编辑距离最近的几个单词.
通过一个bdtree来储存单词和频率, bdtree实现的查找编辑距离相近单词时搜索的很大一个剪支.
#TODO 本来打算实现一个贝叶斯算法, 结果由于词频不合适, 贝叶斯的实现效果非常不好, 常把编辑距离很远但是词频很高的单词排在前面. 所以现在的版本只是利用词频做了编辑距离相同情况下的排序. 下一步要训练一个靠谱的词频表, 把贝叶斯算法加入.
词频表由网络获得. 仅供学习参考.