8.6 命名实体识别的评估方法

词性标注是通过标准的准确率（accuracy）指标来评估的。而命名实体识别是通过召回率（recall）、精确率（precision）和 F1 指标来评估的。召回率是指正确标记的响应数量与应该被标记的总数的比率，精确率是正确标记的响应数量与标记的总数的比率，而 F-measure 是这两者的调和平均数（harmonic mean）。

译者注：Recall 和 Precision 也可以被翻译为查全率和查准率。

为了知道两个 MT 系统的 F1 得分之间的差异是否是一个显著的差异，我们使用 paired bootstrap test，或类似的随机测试。

对于命名实体，响应的单位是实体而不是词。因此在图 8.16 的例子中，两个实体 Jane Villanueva 和 United Airlines Holding 以及非实体 discussed 将各自算作一个响应。

事实上，命名实体标注有一个分区（segmentation）组件，而这在文本分类或词性标注等任务中并不存在，这会导致一些评估方面的问题。例如，一个系统将 Jane 而不是 Jane Villanueva 标注为一个人，这会造成两个错误，一个是 O 的假阳性，一个是 I-PER 的假阴性。此外，使用实体作为响应的单位，而使用词作为训练的单位，意味着训练和测试之间不匹配。

上一页8.5 条件随机场 CRF 下一页8.7 更多细节

最后更新于4年前