-
Notifications
You must be signed in to change notification settings - Fork 416
Home
冬日新雨 edited this page Jun 11, 2020
·
15 revisions
-
JioNLP 工具包主要面向解决中文 NLP 领域基础、常用的功能和方法,旨在帮助开发人员快速处理琐碎的文本操作,避免常用的、繁杂的代码工作。
-
JioNLP 的 wiki 中有各个函数的详细的使用方法、注意事项、函数功能适用范围、样例代码等。
一、(Gadget小工具集)
-
Gadget 小工具集内,提供了分句、去除停用词、繁简体转换、拼音、字形等常见功能。持续更新中…
二、(文件读写)
-
读写文件,除了使用 linux 的 cut、awk 命令之外,使用 python 操作是较为繁琐的工作。该工具集规定了中文文本的读写格式和要求,能够仅使用一行代码完成文件数据集的读写。
三、(正则抽取与解析)
-
中文文本处理涉及到大量的正则解析与信息抽取,本工具集完成了邮箱、身份证号、URL、QQ号、时间字符串、中文货币金额、数字金额、括号补充信息等功能的字段抽取与删除。持续更新中…
四、(词典加载)
-
中文 NLP 中不可避免涉及到大量的词典,工具集提供了停用词词典、地名词典、成语词典、拼音词典、字形词典、歇后语词典、繁简体映射词典等等多种多样的词典信息加载。持续更新中…