8.8 总结

本章介绍了词性命名实体,以及词性标注命名实体识别任务:

  • 语言一般都有一小部分封闭词类,它们的出现频率很高,摸棱两可,而且作为虚词。以及如名词动词形容词开放词类。现有各种词性标签集,包含 40-200 个标签。

  • 词性标注是为一个词语序列中的每个词分配一个词性标签的过程。

  • 命名实体是指专有名词,主要指人、地方和组织,但也能扩展到许多其他严格意义上不是实体甚至不是专有名词的词。

  • 序列建模的两种常见方法是:如 HMM生成式方法和如 CRF判别式方法。我们将在下面的章节中见到神经方法。

  • HMM 标注器中的概率是在标注数据集上通过最大似然估计来估计的。Viterbi 算法被用于解码,以找到最可能的标签序列。

  • CRF 标注器训练一个对数线性模型,该模型可以根据输出标签、上一个输出标签、整个输入序列和当前时间的条件特征,选择给定输入序列的最佳标签序列。他们使用 Viterbi 算法进行推理,以选择最佳的标签序列,并使用 Forward Backward 算法的一个版本(见附录 A)进行训练。

最后更新于