NLP 教程

NLP 工具库

NLP 神经网络

NLP 笔记

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/nlp-pos-tagging.html

NLP 词性标注全解


词性标注(Part-of-Speech Tagging,POS tagging)是指为分词结果中的每个单词根据上下文标注一个正确的词性的程序,即确定每个词是名词、动词、形容词或其他词性的过程。

示例

词性标注也称为语法标注,目标是用一个单独的标签标记每一个词,该标签表示了用法和其句法作用。

假设针对如下内容进行分词后,进行词性标注如下:

美国大选选举日投票正式开始

结果如下:

美国/ns, 大选/v, 选举/v, 日/m, 投票/n, 正式/ad, 开始/v

算法

词性标注任务主要有 3 种算法,具体如下:

词性标注任务算法实现
算法 原理 特点
HMM 词性标注 HMM 速度快
感知机词性标注 感知机 精度高
CRF 词性标注 CRF 精度高

汉语词性标记集

现在常用的汉语词性标记集有 中国科学院计算技术研究所研制的《ICTPOS 3.0 汉语词性标记集》,它共计 99 个类别,其中 22 个一类,66 个二类,11 个三类。

关于具体内容,可以参考 ICTPOS 3.0 汉语词性标记集

本文是笔者的经验之谈,我们在用 NLP 深度学习技术做针对搜索 query 的标注任务(序列标注、分类标注等)时,需要对样本 query 进 ...
这里收集了 NLP 工作相关的常见问题、解决方法等。 ...
意图识别是搜索场景中必需的模块,它主要是针对用户的输入 Query 进行信息分类,进而针对输入的意图进行下一步的合理操作。意图识别的方法从基 ...
Java 虚拟机的发展从 1996 年初 Sun 公司发布的 JDK 1.0 中所包含的 Sun Classic VM 到今天,涌现了许多优 ...
ICTPOS 3.0 汉语词性标记集是主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。 ...