Skip to content

快速开始

Zheng Jiangyu edited this page Sep 12, 2018 · 5 revisions

使用

thulac4j 支持中文分词与词性标注:

// 中文分词
String sentence = "滔滔的流水,向着波士顿湾无声逝去";
List<String> words = Segmenter.segment(sentence);
// [滔滔, 的, 流水, ,, 向着, 波士顿湾, 无声, 逝去]

// 词性标注
POSTagger pos = new POSTagger("models/model_c_model.bin", "models/model_c_dat.bin");
List<SegItem> words = pos.tagging(sentence);
// [滔滔/a, 的/u, 流水/n, ,/w, 向着/p, 波士顿湾/ns, 无声/v, 逝去/v]

有关分词与词性标注的评测结果可参看wiki的测评;分词需要下载训练模型数据,下载地址见http://thulac.thunlp.org.

默认情况下,分词器是关闭书名号内黏词,如需开启则

Segmenter.enableTitleWord();

开启后,书名后8个字符以内的字均会被黏结成一个词。

thulac4j还支持添加自定义词典(注意词典后一次添加会覆盖掉前一次):

// 添加自定义词典
Segmenter.addUserWords(List<String> words);

繁体转简体:

String s = ChineseUtils.simplified("世界商機大發現");

停用词过滤:

Segmenter.enableFilterStopWords()

词性标注

SegPos用于词性标注,共有词性26个,如下:

n/名词 
np/人名 
ns/地名 
ni/机构名 
nz/其它专名
m/数词 
q/量词 
t/时间词 
f/方位词 
s/处所词
v/动词 
a/形容词 
d/副词 
h/前接成分 
k/后接成分 
i/习语 
j/简称 
r/代词 
c/连词 
p/介词 
u/助词 
e/叹词 
o/拟声词 
g/语素 
w/标点 
x/其它

其他版本模型增加了如下词性:

mq/数量词
y/语气助词
vm/能愿动词
vd/趋向动词
Clone this wiki locally