快速开始

使用

thulac4j 支持中文分词与词性标注：

// 中文分词
String sentence = "滔滔的流水，向着波士顿湾无声逝去";
List<String> words = Segmenter.segment(sentence);
// [滔滔, 的, 流水, ，, 向着, 波士顿湾, 无声, 逝去]

// 词性标注
POSTagger pos = new POSTagger("models/model_c_model.bin", "models/model_c_dat.bin");
List<SegItem> words = pos.tagging(sentence);
// [滔滔/a, 的/u, 流水/n, ，/w, 向着/p, 波士顿湾/ns, 无声/v, 逝去/v]

有关分词与词性标注的评测结果可参看wiki的测评；分词需要下载训练模型数据，下载地址见http://thulac.thunlp.org.

默认情况下，分词器是关闭书名号内黏词，如需开启则

Segmenter.enableTitleWord();

开启后，书名后8个字符以内的字均会被黏结成一个词。

thulac4j还支持添加自定义词典（注意词典后一次添加会覆盖掉前一次）：

// 添加自定义词典
Segmenter.addUserWords(List<String> words);

繁体转简体：

String s = ChineseUtils.simplified("世界商機大發現");

停用词过滤：

Segmenter.enableFilterStopWords()

词性标注

SegPos用于词性标注，共有词性26个，如下：

n/名词 
np/人名 
ns/地名 
ni/机构名 
nz/其它专名
m/数词 
q/量词 
t/时间词 
f/方位词 
s/处所词
v/动词 
a/形容词 
d/副词 
h/前接成分 
k/后接成分 
i/习语 
j/简称 
r/代词 
c/连词 
p/介词 
u/助词 
e/叹词 
o/拟声词 
g/语素 
w/标点 
x/其它

其他版本模型增加了如下词性：

mq/数量词
y/语气助词
vm/能愿动词
vd/趋向动词

入门

快速开始

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

快速开始

使用

词性标注

入门

测评

Clone this wiki locally