现代汉语自动分词评测技术研究.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代汉语自动分词评测技术研究

Ξ现代汉语自动分词评测技术研究刘开瑛提要对现代汉语自动分词软件评测技术提出了理论依据和实用算法。提出了分词软件的质量评价原则;评测语料库、歧义切分、人名、地名等各项评测内容的选择依据《;分词规范》中亟待解决的问题以及分词软件评测中切分正确率和切分速度的计算方法等。目前,由于部门的区别和单位的不同以及与市场应用结合紧密的差异,现代汉语书面语的自动分词有可能出现重复研究和研究上偏离国际发展方向的倾向。为了防止出现这种倾向,使国内各研究单位了解同行的水平和技术特点,共享成功的经验和失败的教训,少走弯路,共同在高起点上进行研究,希望通过评测总结和发现研究中存在的共性问题,提出明确的努力目标,引导大家找到解决的办法。最近几年,我们在汉语语料库基础上,用抽样统计方法得出被评测软件切分正确率的各种评测指标,为自动分词的标准化工作提供了有参考价值的材料。分词软件质量的评价准则1一软件质量一般定义为“所有描述软件优秀程度的特性的组合”。通常,软件质量由六个一级特性,即功能性、可靠性、效率、可维护性、易使用性和可移植性来定义。根据全面衡量软件质量的多指标性以及既相互独立又尽量减少冗余的原则,1我们提出以下几个分词软件评价指标的主要准则,供评价这类软件时参考。11分词正确率分词的正确率直接影响更高一级的处理。为了获得分词软件的切分正确率,我们认为应该从总体测试和单项测试两方面进行,求出召回率和准确率,这是对分词软件质量评价的一个直接检验。21切分速度只有在分词正确率基本满足要求的情况下,切分速度才是我们追求的另一个指标。与切分速度直接相关的主要因素有分词算法、软件设计、程序编写和机器速度等。31人机接口的质量人机接口的质量包括接口的交互内容、方式以及系统能支持的硬件环境两个方面。交互内容与方式包括用户模型、命令语言、反馈与信息显示四个成分。设计时应体现功能强、反馈速度快、提示信息适量、出错处理功能及使用方便等原则。41功能完备性自动分词软件除了完成分词功能外,还应具备输入/输出评测语料库和Ξ本课题为“九五”国家社会科学重点基金(96AYY002)和国家自然科学基金资助项目。·101·1997年第1期供分词用词库的增删、修改、查询等功能。51易扩充性和可维护性这项指标与系统的清晰性、模块性、简单性、结构性、产品文件完备性以及自描述性等软件质量准则有直接的联系。该指标对于具有研究实验性质的分词软件是非常重要的,因为这类软件需要不断地提高与改进,以便适应中文信息处理的各种应用。61可移植性可移植性是软件系统无关性与硬件系统无关性及其他软件的特性的综合。一个好的分词软件不应该只能在一种环境下运行,而应稍作修改后便可在另一种环境下运行。二分词软件评测项目的选择评估一个分词系统应在尽量适应全国现有分词软件水平的原则下开展工作。11建造评测语料库评测语料是进行自动分词的基本素材,必须根据当前我国自动分词的实际水平和存在的问题,有针对性选择一定数量的语料来对有关系统进行评测。语料选择上尽量做到具有较广的覆盖面,涉及不同的文体类型,能够反映当前有关的基本语言现象。评测语料库选材的分类与分布,直接影响统计结果的代表性、客观性和准确性。对语料库究竟如何分类,国内尚无依据可循。对于汉语语料库我们是以体裁为主、题材和体裁相结合的方法进行分类,同时根据我国正式发行的出版物的题材、体裁、发行量和影响力,用统计的方法确定其分布,特别要考虑各种与单项测试有关的量,如交集型歧义一定要占到歧义切分字段的85—90%等,以适应交集型与多义型比例的真实状况。我们借鉴国外语料库的分类法,并结合汉语的实际情况,提出把50万汉字的语料库总体分为25个种类,每类10个文件,共250篇文件,每篇文件大约2000个汉字左右。具体分类与分布需要进一步设计。21单项评测项目选择在选好评测语料库的基础上,除进行总体测试外,还应考虑若干单独项目的评测,以便全面评价切分系统。2—3(1)歧义字段自动识别:歧义字段在中文文本中是普遍存在的,歧义切分是自动分词中不可避免的现象,是自动分词中一个比较棘手的问题。对歧义切分字段的处理能力,严重影响到汉语自动分词系统的精度。实践表明,只用机械匹配进行分词,其精度不可能高,虽然有时也能满足一些标准不高的需要,但不能满足中文信息处理高标准的要求。歧义切分字段从构成形式上分为两类:交集型歧义切分字段和多义型歧义切分字段。因为词的划分不是绝对的,应该在整个句法的框架内识别区分,所以从分词结果看,歧义切分字段还可以分为如下两类:第一类是具有确定分法的歧义字段;第二类是具有不确定分法的歧义切分字段。这里说的确定和不确定,当然是对要进行分词的一个短句来说的,例如在句子“当好人大代表”中的交集字段“好人大”,只能唯一地切分成“好/人大”。“中国人为四化做贡献”中多义字

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档