8.6 命名实体识别的评估方法

词性标注是通过标准的准确率accuracy)指标来评估的。而命名实体识别是通过召回率recall)、精确率precision)和 F1 指标来评估的。召回率是指正确标记的响应数量与应该被标记的总数的比率,精确率是正确标记的响应数量与标记的总数的比率,而 F-measure 是这两者的调和平均数(harmonic mean)。

译者注:Recall 和 Precision 也可以被翻译为查全率和查准率。

为了知道两个 MT 系统的 F1 得分之间的差异是否是一个显著的差异,我们使用 paired bootstrap test,或类似的随机测试。

对于命名实体,响应的单位是实体而不是词。因此在图 8.16 的例子中,两个实体 Jane VillanuevaUnited Airlines Holding 以及非实体 discussed 将各自算作一个响应。

事实上,命名实体标注有一个分区(segmentation)组件,而这在文本分类或词性标注等任务中并不存在,这会导致一些评估方面的问题。例如,一个系统将 Jane 而不是 Jane Villanueva 标注为一个人,这会造成两个错误,一个是 O 的假阳性,一个是 I-PER 的假阴性。此外,使用实体作为响应的单位,而使用词作为训练的单位,意味着训练和测试之间不匹配。

最后更新于