Skip to content

Latest commit

 

History

History
10 lines (8 loc) · 1.31 KB

8.8_Summary.md

File metadata and controls

10 lines (8 loc) · 1.31 KB

8.8 总结(Summary

本章介绍了词性命名实体,以及词性标注命名实体识别任务:

  • 语言一般都有一小部分封闭词类,它们的出现频率很高,摸棱两可,而且作为虚词。以及如名词动词形容词开放词类。现有各种词性标签集,包含 40-200 个标签。
  • 词性标注是为一个词语序列中的每个词分配一个词性标签的过程。
  • 命名实体是指专有名词,主要指人、地方和组织,但也能扩展到许多其他严格意义上不是实体甚至不是专有名词的词。
  • 序列建模的两种常见方法是:如 HMM生成式方法和如 CRF判别式方法。我们将在下面的章节中见到神经方法。
  • HMM 标注器中的概率是在标注数据集上通过最大似然估计来估计的。Viterbi 算法被用于解码,以找到最可能的标签序列。
  • CRF 标注器训练一个对数线性模型,该模型可以根据输出标签、上一个输出标签、整个输入序列和当前时间的条件特征,选择给定输入序列的最佳标签序列。他们使用 Viterbi 算法进行推理,以选择最佳的标签序列,并使用 Forward Backward 算法的一个版本(见附录 A)进行训练。