ICTPOS 3.0 汉语词性标记集是主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。
说明
计算所汉语词性标记集共计 99 个,22 个一类,66 个二类,11 个三类,本标记集主要参考了以下词性标记集:
- 北大《人民日报》语料库词性标记集;
- 北大2002新版词性标记集(草稿);
- 清华大学汉语树库词性标记集;
- 教育部语用所词性标记集(国家推荐标准草案2002版);
- 美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;
由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。
本标记集在制定过程中主要考虑了以下几方面的因素:
- 有助于提高汉语词法分析器的切分和标注正确率;
- 有助于提高汉语句法分析器的正确率;
- 有助于汉英机器翻译系统进行翻译;
- 易于从北大《人民日报》语料库词性标记集进行转换;
- 对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。
具体词性
名词
1 个一类,7 个二类,5 个三类:
n
名词nr
人名nr1
汉语姓氏nr2
汉语名字nrj
日语人名nrf
音译人名
ns
地名nsf
音译地名
nt
机构团体名nz
其它专名nl
名词性惯用语ng
名词性语素
时间词
1 个一类,1 个二类:
t
时间词tg
时间词性语素
处所词
1 个一类:
s
处所词
方位词
1 个一类:
f
方位词
动词
1 个一类,9 个二类:
v
动词vd
副动词vn
名动词vshi
动词“是”vyou
动词“有”vf
趋向动词vx
形式动词vi
不及物动词(内动词)vl
动词性惯用语vg
动词性语素
形容词
1 个一类,4 个二类:
a
形容词ad
副形词an
名形词ag
形容词性语素al
形容词性惯用语
区别词
1 个一类,2 个二类:
b
区别词bl
区别词性惯用语
状态词
1 个一类:
z
状态词
代词
1 个一类,4 个二类,6 个三类:
r
代词rr
人称代词rz
指示代词rzt
时间指示代词rzs
处所指示代词rzv
谓词性指示代词
ry
疑问代词ryt
时间疑问代词rys
处所疑问代词ryv
谓词性疑问代词
rg
代词性语素
数词
1 个一类,1 个二类:
m
数词mq
数量词
量词
1 个一类,2 个二类:
q
量词qv
动量词qt
时量词
副词
1 个一类:
d
副词
介词
1 个一类,2 个二类:
p
介词pba
介词“把”pbei
介词“被”
连词
1 个一类,1 个二类:
c
连词cc
并列连词
助词
1 个一类,15 个二类:
u
助词uzhe
着ule
了 喽uguo
过ude1
的 底ude2
地ude3
得usuo
所udeng
等 等等 云云uyy
一样 一般 似的 般udh
的话uls
来讲 来说 而言 说来uzhi
之ulian
连 (“连小学生都会”)
叹词
1 个一类:
e
叹词
语气词
1 个一类:
y
语气词(delete yg)
拟声词
1 个一类:
o
拟声词
前缀
1 个一类:
h
前缀
后缀
1 个一类:
k
后缀
字符串
1 个一类,2 个二类:
x
字符串xe
Email字符串xs
微博会话分隔符xm
表情符合xu
网址URL
标点符号
1 个一类,16 个二类:
w
标点符号wkz
左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <wky
右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >wyz
左引号,全角:“ ‘ 『wyy
右引号,全角:” ’ 』wj
句号,全角:。ww
问号,全角:? 半角:?wt
叹号,全角:! 半角:!wd
逗号,全角:, 半角:,wf
分号,全角:; 半角: ;wn
顿号,全角:、wm
冒号,全角:: 半角: :ws
省略号,全角:…… …wp
破折号,全角:―― -- ――- 半角:--- ----wb
百分号千分号,全角:% ‰ 半角:%wh
单位符号,全角:¥ $ £ ° ℃ 半角:$