- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语分词标注评测大纲.doc
汉语分词标注评测大纲
一、评测对象
本次评测的对象是现代汉语文本自动分词与词性标注系统中的核心技术。
二、评测内容
本次评测主要是通过对分词及词性标注结果的正确率进行评测。具体内容包括:
1.自动分词评测
(1) 总体测试
自动分词结果和命名实体识别的测试分别采用正确率、召回率以及调和平均数(正确率和召回率的调和平均数)等三个指标。
(2) 歧义字段测试
歧义字段分为交集型歧义字段和多义型歧义字段,分别采用正确率、召回率以及调和平均数等三个指标。
2.自动分词与词性标注一体化评测
(1) 总体测试
自动分词与词性标注一体化软件中的自动分词结果通过正确率、召回率以及调和平均数等三个指标测试。
(2) 兼类词词性标注测试
兼类词词性标注结果通过正确率、召回率以及调和平均数等三个指标测试。
(3) 命名实体的识别的测试
命名实体包括人名、地名、机构名和其它专有名词,各项识别结果分别通过正确率、召回率以及调和平均数等三个指标测试。
3.评测语料的选材原则
本次评测将选择20世纪80年代以来流通广泛的图书、报纸、期刊和网络等载体作为语料的来源,以期反映当代汉语的必威体育精装版面貌,涉及到的主题有政治、经济、体育、交通、旅游、教育等。语料的选择考虑到其平衡性、科学性和代表性。
三、评测方法
1.评测方式
本次评测为现场评测。采用自动评测与人工辅助相结合的方式进行。
2.评测步骤:
预先提供一定规模的经过分词和词性标注的已加工语料作为被测单位的参照语料
在评测单位统一提供的评测环境上安装被测系统
评测单位给出测试数据
运行被测系统,得出测试结果
评测单位运行自动测试程序,统计出评测结果
评测单位事后对自动评测结果进行分析和核对,对其中难以进行自动评测的内容进行人工分析确定,并公布评测结果
3.评测标准
汉语分词以《信息处理用现代汉语分词规范》(国家规范 GB/T 13715-92)[1]为主要依据,同时参考1998年北京语言文化大学和清华大学提出的《现代汉语语料库文本分词规范》[2]。在具体操作上,“分词单位”的选取参考预先提供的经过分词和词性标注的参照语料。对于在被评测单位加工后的语料中出现的、但参照语料中未涉及到的一些“分词单位”,只要没有“硬伤”,都认为切分正确。参照语料将在正式评测的两周前给出。
词性标注采用本大纲附录中规定的词性标注集。各标记的定义可参考教育部语言文字应用研究所起草的《信息处理用现代汉语词类标记规范》[3]。
(1)分词评测
分词评测采用三个指标:正确率、召回率、F值。各指标定义如下:
① 分词正确率
表示切分出的词语中出现在标准结果中的词语比例,计算公式如下:
(100%
② 分词召回率
表示标准结果中被正确切分出的词语比例,计算公式如下:
(100%
③ F值
是正确率和召回率的调和平均数,计算公式如下:
(2)其他
歧义字段分词评测、兼类词词性标注评测和命名实体评测都采用正确率、召回率以及调和平均数三个指标,计算公式参照分词计算公式。
4.输入输出文件格式
输入文件为标准的纯文本格式。
输出文件为标准的文本格式,词语之间用空格分开,词语和词性标注之间用半角的斜杠分开。
四、评测环境
本次评测环境包括:操作系统为Windows2000,硬件配置不低于:P4 1GHz,256M内存,40G IDE硬盘。
参考文献:
[1]《信息处理用现代汉语分词规范》,国家规范 GB/T 13715-92
[2]《现代汉语语料库文本分词规范》(Ver 3.0),北京语言文化大学语言信息处理研究所和清华大学计算机科学与技术系,1998
[3]《信息处理用现代汉语词类标记规范》, 中华人民共和国教育部和国家语言文字工作委员会发布,教育部语言文字应用研究所起草,2002
附录 词性标记集
本次评测用汉语词性标记集定义如下:
普通名词:n 时间名词:nt 方位名词:nd 处所名词:nl
人名:nh 地名:ns 团体、机构、组织的专名:ni
其它专名:nz 动词:v 形容词:a 区别词:b
副词:d 数词:m 量词:q 代词;r
介词:p 连词:c 叹词:e 拟声词:o
助词:u 前接成分:h 后接成分:k 习用语:i
简称:j 语素字:g 非语素字:x 标点:wp
字符串:ws
文档评论(0)