📙
slp3-zh
  • README
  • 第二章 正则表达式,文本规范化,编辑距离
    • 2.1 正则表达式
    • 2.2 词
    • 2.3 语料库
    • 2.4 文本规范化
    • 2.5 最小编辑距离
    • 2.6 总结
  • 第八章 用于词性和命名实体的序列标注
    • 8.1 英语词类
    • 8.2 词性标注
    • 8.3 命名实体和命名实体标注
    • 8.4 HMM 词性标注
    • 8.5 条件随机场 CRF
    • 8.6 命名实体识别的评估方法
    • 8.7 更多细节
    • 8.8 总结
  • 第十二章 成分文法
    • 12.1 句法
    • 12.2 上下文无关文法
    • 12.3 一些英语语法规则
  • 中英文对照表
由 GitBook 提供支持
在本页

这有帮助吗?

  1. 第八章 用于词性和命名实体的序列标注

8.2 词性标注

上一页8.1 英语词类下一页8.3 命名实体和命名实体标注

最后更新于3年前

这有帮助吗?

词性标注(Part-of-speech tagging)是为文本中的每个单词分配一个词性的过程。输入是一个(分词后的)词序列 $x_1,x_2,\ldots,x_n$ 和一个标签集,输出为标签序列 $y_1,y_2,\ldots,y_n$,每个输出 $y_i$ 对应于一个输入 $x_i$,如图 8.3 所示。

标注是一项消歧(disambiguation)任务;单词的意义是有歧义的 —— 可能有一个以上的词性,目标是找到适合当前语境的标注。例如,book 可以是一个动词(book that flight)或一个名词(hand me that book)。That 可以是一个定语(Does that flight serve dinner),也可以是一个补语连词(I thought that your flight was earlier)。词性标注的目标是解析(resolve)这些歧义,为当前语境选择一个适当的标注。

词性标注算法的准确率(accuracy)(在测试集上与人类标注匹配的百分比)非常高。一项研究发现,Universal Dependency(UD)树库(treebank)在 15 种语言中的准确率超过 97% (Wu and Dredze, 2019)[^1]。其他各种英语树库的准确度也为 97%(无论用什么算法;HMM、CRF、BERT 的表现都相似)。这个 97% 也是人类在此任务上的水平,至少对于英语而言 (Manning, 2011)[^2]。

译者注:关于上面说的 15 种语言在 UD 上的准确率超过 97%:

  1. 这是一个平均结果,其中德语和荷兰语(nl,Dutch)的结果是低于 97% 的。

  2. 汉语不在这 15 种语言中。

我们将在接下来的几节中介绍该任务的算法,但首先让我们探讨一下这项任务。它到底有多难?图 8.4 显示,大多数词型(word types)(85 - 86%)是很确定的(Janet 总是 NNP,Husitantly 总是 RB)。但是,这些有歧义的词,虽然只占词汇表的 14 - 15%,但却非常普遍,实际文本(running text)中 55 - 67% 的 token 是有歧义的。常见的有歧义的词包括 that、back、down、put 和 set;以下是一些关于 back 这个词的 6 个不同词性的例子:

earnings growth took a back/JJ seat a small building in the back/NN a clear majority of senators back/VBP the bill Dave began to back/VB toward the door enable the country to buy back/RP debt I was twenty-one back/RB then

尽管如此,许多词的词性还是很容易辨别的,因为它们的每个标签的可能性并不一样。例如,a 可以是一个定语,也可以是字母 a,但定语的可能性更大。

这个想法实际上是一个有用的基准(baseline):给定一个有歧义的词,选择训练语料库中出现次数最多的那个标签。这是一个关键概念:

最频繁类基准(Most Frequent Class Baseline):始终将分类器与基准进行比较,至少要与最频繁类基准一样好(将每个 token 分配给它在训练集中最常出现的类别)。

最频繁类基准的准确率约为 92%[^3]。因此,该基准与最先进的人类的上限(97%)仅相差 5%。

[^1]: Wu, S. and Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. EMNLP. [^2]: Manning, C. D. (2011). Part-of-speech tagging from 97% to 100%: Is it time for some linguistics?. CICLing 2011. [^3]: In English, on the WSJ corpus, tested on sections 22-24.

图 8.3
图 8.4
15 种语言在 UD 上的测试结果