词性标注(Part-of-Speech Tagging,POS tagging)是指为分词结果中的每个单词根据上下文标注一个正确的词性的程序,即确定每个词是名词、动词、形容词或其他词性的过程。
示例
词性标注也称为语法标注,目标是用一个单独的标签标记每一个词,该标签表示了用法和其句法作用。
假设针对如下内容进行分词后,进行词性标注如下:
美国大选选举日投票正式开始
结果如下:
美国/ns, 大选/v, 选举/v, 日/m, 投票/n, 正式/ad, 开始/v
算法
词性标注任务主要有 3 种算法,具体如下:
算法 | 原理 | 特点 |
---|---|---|
HMM 词性标注 | HMM | 速度快 |
感知机词性标注 | 感知机 | 精度高 |
CRF 词性标注 | CRF | 精度高 |
汉语词性标记集
现在常用的汉语词性标记集有 中国科学院计算技术研究所研制的《ICTPOS 3.0 汉语词性标记集》,它共计 99 个类别,其中 22 个一类,66 个二类,11 个三类。
关于具体内容,可以参考 ICTPOS 3.0 汉语词性标记集。