-
Notifications
You must be signed in to change notification settings - Fork 33
快速开始
Zheng Jiangyu edited this page Sep 12, 2018
·
5 revisions
thulac4j 支持中文分词与词性标注:
// 中文分词
String sentence = "滔滔的流水,向着波士顿湾无声逝去";
List<String> words = Segmenter.segment(sentence);
// [滔滔, 的, 流水, ,, 向着, 波士顿湾, 无声, 逝去]
// 词性标注
POSTagger pos = new POSTagger("models/model_c_model.bin", "models/model_c_dat.bin");
List<SegItem> words = pos.tagging(sentence);
// [滔滔/a, 的/u, 流水/n, ,/w, 向着/p, 波士顿湾/ns, 无声/v, 逝去/v]
有关分词与词性标注的评测结果可参看wiki的测评;分词需要下载训练模型数据,下载地址见http://thulac.thunlp.org.
默认情况下,分词器是关闭书名号内黏词,如需开启则
Segmenter.enableTitleWord();
开启后,书名后8个字符以内的字均会被黏结成一个词。
thulac4j还支持添加自定义词典(注意词典后一次添加会覆盖掉前一次):
// 添加自定义词典
Segmenter.addUserWords(List<String> words);
繁体转简体:
String s = ChineseUtils.simplified("世界商機大發現");
停用词过滤:
Segmenter.enableFilterStopWords()
SegPos用于词性标注,共有词性26个,如下:
n/名词
np/人名
ns/地名
ni/机构名
nz/其它专名
m/数词
q/量词
t/时间词
f/方位词
s/处所词
v/动词
a/形容词
d/副词
h/前接成分
k/后接成分
i/习语
j/简称
r/代词
c/连词
p/介词
u/助词
e/叹词
o/拟声词
g/语素
w/标点
x/其它
其他版本模型增加了如下词性:
mq/数量词
y/语气助词
vm/能愿动词
vd/趋向动词