8.8 总结
本章介绍了词性和命名实体,以及词性标注和命名实体识别任务:
语言一般都有一小部分封闭词类,它们的出现频率很高,摸棱两可,而且作为虚词。以及如名词、动词、形容词的开放词类。现有各种词性标签集,包含 40-200 个标签。
词性标注是为一个词语序列中的每个词分配一个词性标签的过程。
命名实体是指专有名词,主要指人、地方和组织,但也能扩展到许多其他严格意义上不是实体甚至不是专有名词的词。
序列建模的两种常见方法是:如 HMM 的生成式方法和如 CRF 的判别式方法。我们将在下面的章节中见到神经方法。
HMM 标注器中的概率是在标注数据集上通过最大似然估计来估计的。Viterbi 算法被用于解码,以找到最可能的标签序列。
CRF 标注器训练一个对数线性模型,该模型可以根据输出标签、上一个输出标签、整个输入序列和当前时间的条件特征,选择给定输入序列的最佳标签序列。他们使用 Viterbi 算法进行推理,以选择最佳的标签序列,并使用 Forward Backward 算法的一个版本(见附录 A)进行训练。
最后更新于