基于语义信息分词后处理研究.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义信息的分词后处理研究+ 郭丈宏张永奎余明山 f山西大学计算机科学系,太原.030006) 摘要 本文对分词错误作了分析,设计出一个分词后语料的语义类别模型.并在此基础上提出 了一个利用语义信息排除分词错谋的算法。该项研究作为中文信息处理的基础工作,对情报检索、自 动文摘、自动分类等领域的研究有一定价值。 关键词 歧义切分语义分娄体系义类组台 1引 言 在中文信息处理中,词的处理是基础,信息检索、自然语言理解、机器翻译等都 以词作为基本单位。尽管自动分词的研究已取得了大量进展以及许多实用性成果。但 分词的结果仍不能满足中文信息处理高标准的要求。 从某种意义上说,分词错误的多少反映机器对篇章理解的程度,而对篇章理解水 平的提高又可以增加排除歧义切分的准确度。当前的分词系统主要是基于单纯的机械 匹配及少量规则的基础上,大多语料经过分词处理后仍有一定数量的分词错误存在。 我们的研究目的就是利用语义信息对分词后的语料加以整理,一方面初步确定文本的 语义类别;另一方面希望提出一个有效的算法.提高排歧的精确度。本文通过对分词 后的语料进行加工处理,利用文本的语义类别、词间的义类组台以及文本中义类代码 出现的频次等语义信息,来检查和摊除分词后遗留的分词错误问题。整理后的语料可 作为自动分类、自动文摘、机器翻译等研究Ji作的对象。 2 分词错误分析 语料分词后的错误集中体现在歧义字段的切分上.歧义切分字段从构成形式L分 为两类:交集型歧义切分字段(简称交集字段)和多义组合型歧义切分字段(简称多 义组合字段)。 设丁为要进行分词的文本,c为汉字的集合。设在切分字甫的过桴中,切分出… 个词川5c。l巴2…c蜊,口”为嘲中汉字的个数:如果词啊。(1nicn2…‘又可切分为 ·国家自然科学基金资助项目695750 忡II2La J。“2…L叫和12。L甜+lL口+2…L删, 且这种切分方法在汉语中是有意义的,则称 彤是一个多义组合字段。设对于嘎,与eI连接的汉字串为cj—qz…%,与c删连接 am,IsJ (i口7s sSn)能构成另外一个词,则所涉及的汉字串为交集字段。目前在 分词中还没有找到一个适当的方法自动发现多义组合字段[】]。本文的算法包含了对该问 题的解决。从分词结果看,有些歧义切分字段本身就是汉语言中的歧义问题,解决办法 必须依据上下文语义信息进行处理。因此我们认为,排除分词错误应同时在语法和语义 屡面上进行。因为人对歧义的排除是基于人脑已有的知识以及歧义字段所在的上下文信 息基础之上的,语义处理至少有以下几个显著作用:有助于在理解的基础上分析歧义字 段;有助于结合文章的语义类别分析其它分词错误;有助于在分析过程中分化歧义现象。 基于上述思想,我们采用^,基于《同义词词林》的语义分类体系。设计了一个分词后文 本的语义类别模型,并综合运用语义与语法手段进行了分词后的查错与排歧。 3 文本语义类别的确定 为了确定分词后文本的语义类别,需要先对其进行词性和义类代码的标注,以作 为算法研究的基础。我们采用的语义分类体系以《同义词词林》为基础。《同义词词 林》是一部义类词典。它描述了一个由广泛概念到具体浏义的语义分类体系,与此分 类体系相对应的是一个词义的编码体系,其编码体系用犬写英文字母表大类,小写英 文字母表中类,两位阿拉伯数字表小类,如:“群众”的编码为Ae01,表示属A大类, 即“人”这一词义范畴;属Ae中类,即“泛称”这一中范畴;属Ae01小类,即属“人 民”这一小范畴。《词林》中的分类体系,即使到小类,词群中各词义仍有很大差别。 因此,为用于篇章的理解,我们通过对其分级细化、语义重组,进行了适当的改进, 加工后的编码形式为 编码::=大类中类小类四级类五级类 语义分类体系明确后,我们对一定数量的语料和部分《现代汉语词典》的释义文 本进行了义类代码的标注。标注以机器自动标注为主,人工干预为辅的原则进行。然 后统计出了义类间的组合频率。并对统计的结果进行了加工,设计了特定的结构存储, 以使数据检索的效率大大提高。对于分词处理后的文本,我们为其建立了一个语义类

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档