NLP 教程

NLP 工具库

NLP 神经网络

NLP 笔记

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/nlp-chinese-pos-tagging-ictpos-version-3.html

ICTPOS 3.0 汉语词性标记集

NLP 词性标注全解 NLP 词性标注全解


ICTPOS 3.0 汉语词性标记集是主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。

说明

计算所汉语词性标记集共计 99 个,22 个一类,66 个二类,11 个三类,本标记集主要参考了以下词性标记集:

  1. 北大《人民日报》语料库词性标记集;
  2. 北大2002新版词性标记集(草稿);
  3. 清华大学汉语树库词性标记集;
  4. 教育部语用所词性标记集(国家推荐标准草案2002版);
  5. 美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;

由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。

本标记集在制定过程中主要考虑了以下几方面的因素:

  1. 有助于提高汉语词法分析器的切分和标注正确率;
  2. 有助于提高汉语句法分析器的正确率;
  3. 有助于汉英机器翻译系统进行翻译;
  4. 易于从北大《人民日报》语料库词性标记集进行转换;
  5. 对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。

具体词性

名词

1 个一类,7 个二类,5 个三类:

  • n 名词
    • nr 人名
      • nr1 汉语姓氏
      • nr2 汉语名字
      • nrj 日语人名
      • nrf 音译人名
    • ns 地名
      • nsf 音译地名
    • nt 机构团体名
    • nz 其它专名
    • nl 名词性惯用语
    • ng 名词性语素

时间词

1 个一类,1 个二类:

  • t 时间词
    • tg 时间词性语素

处所词

1 个一类:

  • s 处所词

方位词

1 个一类:

  • f 方位词

动词

1 个一类,9 个二类:

  • v 动词
    • vd 副动词
    • vn 名动词
    • vshi 动词“是”
    • vyou 动词“有”
    • vf 趋向动词
    • vx 形式动词
    • vi 不及物动词(内动词)
    • vl 动词性惯用语
    • vg 动词性语素

形容词

1 个一类,4 个二类:

  • a 形容词
    • ad 副形词
    • an 名形词
    • ag 形容词性语素
    • al 形容词性惯用语

区别词

1 个一类,2 个二类:

  • b 区别词
    • bl 区别词性惯用语

状态词

1 个一类:

  • z 状态词

代词

1 个一类,4 个二类,6 个三类:

  • r 代词
    • rr 人称代词
    • rz 指示代词
      • rzt 时间指示代词
      • rzs 处所指示代词
      • rzv 谓词性指示代词
    • ry 疑问代词
      • ryt 时间疑问代词
      • rys 处所疑问代词
      • ryv 谓词性疑问代词
    • rg 代词性语素

数词

1 个一类,1 个二类:

  • m 数词
    • mq 数量词

量词

1 个一类,2 个二类:

  • q 量词
    • qv 动量词
    • qt 时量词

副词

1 个一类:

  • d 副词

介词

1 个一类,2 个二类:

  • p 介词
    • pba 介词“把”
    • pbei 介词“被”​​​​​​​

连词

1 个一类,1 个二类:

  • c 连词
    • cc 并列连词​​​​​​​

助词

1 个一类,15 个二类:

  • u 助词
    • uzhe
    • ule 了 喽
    • uguo
    • ude1 的 底
    • ude2
    • ude3
    • usuo
    • udeng 等 等等 云云
    • uyy 一样 一般 似的 般
    • udh 的话
    • uls 来讲 来说 而言 说来
    • uzhi
    • ulian 连 (“连小学生都会”)

叹词

1 个一类:

  • e 叹词

语气词

1 个一类:

  • y 语气词(delete yg)

拟声词

1 个一类:

  • o 拟声词

前缀

1 个一类:

  • h 前缀

后缀

1 个一类:

  • k 后缀

字符串

1 个一类,2 个二类:

  • x 字符串
    • xe  Email字符串
    • xs 微博会话分隔符
    • xm 表情符合
    • xu 网址URL

标点符号

1 个一类,16 个二类:

  • w 标点符号
    • wkz 左括号,全角:( 〔  [  {  《 【  〖 〈   半角:( [ { <
    • wky 右括号,全角:) 〕  ] } 》  】 〗 〉 半角: ) ] { >
    • wyz 左引号,全角:“ ‘ 『
    • wyy 右引号,全角:” ’ 』
    • wj 句号,全角:。
    • ww 问号,全角:? 半角:?
    • wt 叹号,全角:! 半角:!
    • wd 逗号,全角:, 半角:,
    • wf 分号,全角:; 半角: ;
    • wn 顿号,全角:、
    • wm 冒号,全角:: 半角: :
    • ws 省略号,全角:……  …
    • wp 破折号,全角:――   --   ――-   半角:---  ----
    • wb 百分号千分号,全角:% ‰   半角:%
    • wh 单位符号,全角:¥ $ £  °  ℃  半角:$
sklearn内置了一些机器学习的数据集,其中包括iris(鸢尾花)数据集、乳腺癌数据集、波士顿房价数据集、糖尿病数据集、手写数字数据集、体 ...
词性标注(Part-of-Speech Tagging,POS tagging)是指为分词结果中的每个单词根据上下文标注一个正确的词性的程序 ...
0之间的一些重要区别如下:Python版本的支持:*Django2.0引入了新的模型字段,如`EmailField`的`max_length ...
使用 java jstack jmap 等命令工具查看 java 进程信息时,会报错 Unable to open socket file: ...
在使用 xgboost 训练数据和检验模型时,如果测试集的特征最大编号数大于训练集的特征最大编号数,在测试时,会报 ValueError: ...