中文分词和标点符号预测都可以被当做序列标注问题进行处理,这是实现联合标注,进而搭建联合框架同时进行中文分词和标点预测的关键。本项目包含2个要点: 1 中文分词和标点预测的联合标注(中文分词使用四词位) 2 多层BLATM模型
项目用Python语言所写,神经网络的实现用到了Google的tensorflow-1.0.1
1)my_biLSTM_multilayer_CWS.py 此文件定义搭建的多层BLSTM模型和执行迭代训练,首先要运行此文件,训练联合框架。
2) my_biLSTM_multilayer_CWS_testing.py 此文件为测试程序
3)my_reader.py 此文件为预处理程序,把预料送入神经网络之前,要建立词典,为每个字符打标签。