一种消除混合歧义的新方法.pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种消除混合歧义的新方法.pdf

一 剑堑迨堡|_ 一种消除混合歧义的新方法 朱新维 (合肥学院,安徽合肥230601) 中图分类号:TP311.52文献标识码:A文章编号:1003—2738(2011)11-0361-01 摘要:由于混合歧义以及交叉歧义的存在,歧义一直是困扰分词技术发展的瓶颈。本文以含有歧义词语的句子作为研究对象,考虑了由于不同的分词 方法导致的共生词语的出现,构建了辫别不同断句方法的公式。初步试验与例证表明该方法具有较好的灵活性,优干现存技术。 关键词:信息处理;混合岐义;消除歧义;方程 一、前言 计划;这是国际共产主义运动‘中长期’没有解决的一个重大理论 在中文文本信息处理中,自动分词是一项由计算机将完整的句子 问题”中“中长期”具有混合歧义性,分词结果有“中长期”与 划分为多个词语单元的技术。由于分词的精度严重影响了读者对于文 “中” “长期”。根据上下文有“国家的中长期”, 。中长期计 本的分析与理解程度,因此该技术在信息处理领域具有一定的重要意 划”, 。国家的中”, 。长期计划”, “运动中长期”。 。中长期没 义。比如文本分类、文本信息检索以及本文自动总结等。分词技术的 有”。 “运动中”, “长期没有”等。但是“国家的中。与。运动中 瓶颈是消除歧义,其中包括混合歧义与交叉歧义。 长期”不能构成词语,匹配为O。 以下列存有混合歧义的句子为例: 1.你要考虑你自己的/将来/;市长/将/来/我们学校考察工作。 针对。这是国际共产主义运动中长期没有解决的一个重大理论问 2.他/才能/有资格获得冠军;人/才/能/推动科技进步。 3.国家的/中长期/计划是指导国家战略发展的计划;这是国际共 分离分解。 产主义运动/中/长期/没有解决的一个重大理论问题。 3)算法 在本文中。综合考虑了多种分词方法所导致的不同结果,例如歧 基于上述讨论,算法如下: 义词。中长期”可以分解为。中”, “长期”或者。中长期”两种不 输入:混合歧义 同的结果,在可能的结果与其在文本中前后的词语之间,根据匹配词 词W与7包括w 语的数量构建方程来消除句子中的歧义。 输出:分解w的正确方法 二、相关概念 处理过程: 定义1:将连续的字符串分解为多个词语的技术为分词技术,且由 不同分词方法导致的词语含义发生变化称为歧义。 E E 所有可能的匹配w—t 定义2:现有任一字符串+“AB★”,W为词组,如果ABW,AW, wf.心M“叫一.ⅥPⅥ2M—I。 B∈W,.ⅢIJAB可以被分解为/AB/,或者/A/B/,此时AB被称为混合歧义。 3·J,l-算-F(w,一1 wf)、F(wjw,.,),F(Ⅵ一。M1)、,(w2wI—1)· 定义3:现有数组D={d1.(12.….dm),且单元d1=(t1.t2.…。tn} 4.计算F(unitel,F(detach). (i=I.2.….m)。T={t1.t2.….tP]为DO所有的单元。因此可得:单5.如果F(unite)≥F(detach)保留整体。 元集:T中任~子集均为D中的单元集,记为X,I

文档评论(0)

整理王 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档