ICTPOS 3.0 汉语词性标记集是主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。
说明
计算所汉语词性标记集共计 99 个,22 个一类,66 个二类,11 个三类,本标记集主要参考了以下词性标记集:
- 北大《人民日报》语料库词性标记集;
- 北大2002新版词性标记集(草稿);
- 清华大学汉语树库词性标记集;
- 教育部语用所词性标记集(国家推荐标准草案2002版);
- 美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;
由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。
本标记集在制定过程中主要考虑了以下几方面的因素:
- 有助于提高汉语词法分析器的切分和标注正确率;
- 有助于提高汉语句法分析器的正确率;
- 有助于汉英机器翻译系统进行翻译;
- 易于从北大《人民日报》语料库词性标记集进行转换;
- 对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。
具体词性
名词
1 个一类,7 个二类,5 个三类:
n名词nr人名nr1汉语姓氏nr2汉语名字nrj日语人名nrf音译人名
ns地名nsf音译地名
nt机构团体名nz其它专名nl名词性惯用语ng名词性语素
时间词
1 个一类,1 个二类:
t时间词tg时间词性语素
处所词
1 个一类:
s处所词
方位词
1 个一类:
f方位词
动词
1 个一类,9 个二类:
v动词vd副动词vn名动词vshi动词“是”vyou动词“有”vf趋向动词vx形式动词vi不及物动词(内动词)vl动词性惯用语vg动词性语素
形容词
1 个一类,4 个二类:
a形容词ad副形词an名形词ag形容词性语素al形容词性惯用语
区别词
1 个一类,2 个二类:
b区别词bl区别词性惯用语
状态词
1 个一类:
z状态词
代词
1 个一类,4 个二类,6 个三类:
r代词rr人称代词rz指示代词rzt时间指示代词rzs处所指示代词rzv谓词性指示代词
ry疑问代词ryt时间疑问代词rys处所疑问代词ryv谓词性疑问代词
rg代词性语素
数词
1 个一类,1 个二类:
m数词mq数量词
量词
1 个一类,2 个二类:
q量词qv动量词qt时量词
副词
1 个一类:
d副词
介词
1 个一类,2 个二类:
p介词pba介词“把”pbei介词“被”
连词
1 个一类,1 个二类:
c连词cc并列连词
助词
1 个一类,15 个二类:
u助词uzhe着ule了 喽uguo过ude1的 底ude2地ude3得usuo所udeng等 等等 云云uyy一样 一般 似的 般udh的话uls来讲 来说 而言 说来uzhi之ulian连 (“连小学生都会”)
叹词
1 个一类:
e叹词
语气词
1 个一类:
y语气词(delete yg)
拟声词
1 个一类:
o拟声词
前缀
1 个一类:
h前缀
后缀
1 个一类:
k后缀
字符串
1 个一类,2 个二类:
x字符串xeEmail字符串xs微博会话分隔符xm表情符合xu网址URL
标点符号
1 个一类,16 个二类:
w标点符号wkz左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <wky右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >wyz左引号,全角:“ ‘ 『wyy右引号,全角:” ’ 』wj句号,全角:。ww问号,全角:? 半角:?wt叹号,全角:! 半角:!wd逗号,全角:, 半角:,wf分号,全角:; 半角: ;wn顿号,全角:、wm冒号,全角:: 半角: :ws省略号,全角:…… …wp破折号,全角:―― -- ――- 半角:--- ----wb百分号千分号,全角:% ‰ 半角:%wh单位符号,全角:¥ $ £ ° ℃ 半角:$