# README

《自然语言处理综论》第三版翻译。原文：[Speech and Language Processing](https://web.stanford.edu/~jurafsky/slp3/)。

若无特别说明，文中括号或者引用块中的 *斜体字* 为对应的英文原文或者我自己注释的话（会标明 *译者注*），引用块开头若标明「译者注」，则整个引用块都是我自己注释的话。否则为原文中本来就有的话。

## 在线阅读

本翻译系列目前可以在以下平台在线阅读：

* 【推荐】知乎。链接：[自然语言处理综论第三版中文翻译系列导读 - 知乎](https://zhuanlan.zhihu.com/p/365853153)。注意不是实时发布，会在翻译完整节之后同步到知乎。对脚注和数学公式等格式支持较好。
* GitBook。链接：[Introduction - slp3-zh](https://secsilm.gitbook.io/slp3-zh/)。与 GitHub 保持实时更新。不支持渲染脚注，但不会被吃掉。由于行内公式使用的是 `$$`，所以行内公式无法正常显示。
* GitHub。链接：[secsilm/slp3-zh: 《自然语言处理综论》第三版翻译。](https://github.com/secsilm/slp3-zh)。内容最新。~~不支持脚注~~，但不会被吃掉。数学公式完全不支持。

## 进度

* 第二章 正则表达式，文本规范化，编辑距离
  * [Intro](https://secsilm.gitbook.io/slp3-zh/intro)
  * [2.1 正则表达式](https://secsilm.gitbook.io/slp3-zh/intro/2.1_regular-expressions)
    * 2.1.1 基础正则表达式模式
    * 2.1.2 逻辑或，组合和优先级
    * 2.1.3 一个简单的例子
    * 2.1.4 更多的运算符
    * 2.1.5 一个更复杂的例子
    * 2.1.6 替换，捕获组（*Capture Groups*）和 ELIZA
    * 2.1.7 先行断言
  * [2.2 词](https://secsilm.gitbook.io/slp3-zh/intro/2.2_words)
  * [2.3 语料库](https://secsilm.gitbook.io/slp3-zh/intro/2.3_corpora)
  * [2.4 文本规范化](https://secsilm.gitbook.io/slp3-zh/intro/2.4_text-normalization)
    * 2.4.1 用于粗略分词和规范化的 Unix 工具
    * 2.4.2 分词
    * 2.4.3 用于分词的字节对编码
    * 2.4.4 词规范化，词形还原和词干提取
    * 2.4.5 分句
  * [2.5 最小编辑距离](https://secsilm.gitbook.io/slp3-zh/intro/2.5_minimum-edit-distance)
    * 2.5.1 最小编辑距离算法
  * [2.6 总结](https://secsilm.gitbook.io/slp3-zh/intro/2.6_summary)
* 第八章 用于词性和命名实体的序列标注
  * [Intro](https://secsilm.gitbook.io/slp3-zh/intro-1)
  * [8.1 英语词类](https://secsilm.gitbook.io/slp3-zh/intro-1/8.1_mostly-english-word-classes)
  * [8.2 词性标注](https://secsilm.gitbook.io/slp3-zh/intro-1/8.2_part-of-speech-tagging)
  * [8.3 命名实体和命名实体标注](https://secsilm.gitbook.io/slp3-zh/intro-1/8.3_named-entities-and-named-entity-tagging)
  * [8.4 HMM 词性标注](https://secsilm.gitbook.io/slp3-zh/intro-1/8.4_hmm-part-of-speech-tagging)
    * 8.4.1 马克可夫链
    * 8.4.2 隐马尔可夫模型
    * 8.4.3 HMM 标注器组件
    * 8.4.4 HMM 标注的解码部分
    * 8.4.5 维特比算法
    * 8.4.6 例子
  * [8.5 条件随机场 CRF](https://secsilm.gitbook.io/slp3-zh/intro-1/8.5_conditional-random-fields)
    * 8.5.1 CRF 词性标注器中的特征
    * 8.5.2 用于命名实体识别的 CRF 特征
    * 8.5.3 CRF 的推理和训练
  * [8.6 命名实体识别的评估方法](https://secsilm.gitbook.io/slp3-zh/intro-1/8.6_evaluation-of-named-entity-recognition)
  * [8.7 更多细节](https://secsilm.gitbook.io/slp3-zh/intro-1/8.7_further-details)
    * 8.7.1 双向性
    * 8.7.2 基于规则的方法
    * 8.7.3 形态丰富语言的词性标注
  * [8.8 总结](https://secsilm.gitbook.io/slp3-zh/intro-1/8.8_summary)
* 第十二章 成分文法
  * [Intro](https://secsilm.gitbook.io/slp3-zh/intro-2)
  * [12.1 句法](https://secsilm.gitbook.io/slp3-zh/intro-2/12.1_constituency)
  * [12.2 上下文无关文法](https://secsilm.gitbook.io/slp3-zh/intro-2/12.2_context-free-grammars)
  * [12.3 一些英语语法规则](https://secsilm.gitbook.io/slp3-zh/intro-2/12.3_some-grammar-rules-for-english)（*进行中*）

## TODO

接下来计划要翻译的章节：

* [x] [Chapter 8: Sequence Labeling for Parts of Speech and Named Entities](https://web.stanford.edu/~jurafsky/slp3/8.pdf)（27 页，[2.5.1](https://secsilm.gitbook.io/slp3-zh/intro/2.5_minimum-edit-distance) 中提到）
* [ ] [Chapter 5: Logistic Regression](https://web.stanford.edu/~jurafsky/slp3/5.pdf)（21 页，[8.5](https://secsilm.gitbook.io/slp3-zh/intro-1/8.5_conditional-random-fields) 中提到）
* [ ] 【进行中】[Chapter 12: Constituency Grammars](https://web.stanford.edu/~jurafsky/slp3/12.pdf)（30 页）
* [ ] [Chapter 13: Constituency Parsing](https://web.stanford.edu/~jurafsky/slp3/13.pdf)（22 页，[2.5.1](https://secsilm.gitbook.io/slp3-zh/intro/2.5_minimum-edit-distance) 中提到）


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://secsilm.gitbook.io/slp3-zh/readme.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
