Skip to content

wenyangchou/SimilarCharactor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

SimilarCharactor

基于音形码,EditDistance的字符串纠正相似度算法

音形码格式:【韵母,声母,结构,四角编码,笔画数】 共8位

音形码相似度算法 参考博客https://blog.csdn.net/chndata/article/details/41114771
TODO 字符串错误匹配算法 参考

结构、四角编码 抓取http://zidian.miaochaxun.com 数据
韵母、声母 使用pinyin包
笔画数抓取https://bihua.51240.com 数据

入口函数在string_similarity.py

繁简切换 Done ongoing 相似度分值映射调整(sigmoid函数映射) TODO 字符串包含关系 ongoing 相似度算法添加与调整(bm25)
TODO 字符串错位

===============================================================================

本人邮箱: wenyang.chou@foxmail.com

由于现在不做文本处理工作,所以理论不再继续研究

如果有idea可以联系本人邮箱,我会不定期接收算法理论并更新代码

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages