8.8 总结

本章介绍了词性和命名实体，以及词性标注和命名实体识别任务：

语言一般都有一小部分封闭词类，它们的出现频率很高，摸棱两可，而且作为虚词。以及如名词、动词、形容词的开放词类。现有各种词性标签集，包含 40-200 个标签。
词性标注是为一个词语序列中的每个词分配一个词性标签的过程。
命名实体是指专有名词，主要指人、地方和组织，但也能扩展到许多其他严格意义上不是实体甚至不是专有名词的词。
序列建模的两种常见方法是：如 HMM 的生成式方法和如 CRF 的判别式方法。我们将在下面的章节中见到神经方法。
HMM 标注器中的概率是在标注数据集上通过最大似然估计来估计的。Viterbi 算法被用于解码，以找到最可能的标签序列。
CRF 标注器训练一个对数线性模型，该模型可以根据输出标签、上一个输出标签、整个输入序列和当前时间的条件特征，选择给定输入序列的最佳标签序列。他们使用 Viterbi 算法进行推理，以选择最佳的标签序列，并使用 Forward Backward 算法的一个版本（见附录 A）进行训练。

最后更新于4年前