网站大量收购独家精品文档,联系QQ:2885784924

中文时间表达式别研究.pdf

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文时间表达式别研究

摘要 随着信息处理技术的飞速发展,命名实体识别技术越来越多的受到人们 的关注。本文所研究的时间表达式识别,就是命名实体识别领域一项基础而重要 的任务。 时间表达式在自然语言处理领域有着非常广泛的应用。在主题检测与跟 踪任务中,可以用时间来定位事件发生的先后顺序;在自动问答系统中,可以用 来回答和时间相关的问题,如“多久,何时”;在机器翻译任务中,时间顺序的 定位可以让译文更加通顺易读;甚至在网页结构分析方面,也有研究利用时间表 达式特征提高网页分析精度。 时间表达式识别技术主要分为两类:基于机器学习的序列标注方法和基 于规则的方法。本文分别对这两类方法进行了深入而细致的研究。 对于序列标注方法,本文介绍了目前主流的有监督学习模型:条件最大 熵和条件随机场,并且分别使用两种模型实现了完整的中文时间表达式识别系 统。实验结果显示,虽然序列标注方法在命名实体识别领域占据主流地位,但是 对于时间表达式识别任务,基于条件最大熵模型构建的系统F.score达到79.1%, 基于条件随机场模型构建的系统F.score达到79.5%,两者都无法缀有效的完成 时间表达式识别任务。 目前,时间表达式识别领域,最为广泛使用的仍然是经典的基于规则的 方法,本文也针对基于规则的方法进行了深入的探索。首先,构建人工规则库: 然后,为了提高召回率,解决人工消耗问题,设计了基于训练语料自动学习规则 的时间表达式识别算法,这样做充分利用了训练语料中大量的己标注信息;接着, 为了提高正确率,本文又结合错误驱动思想进行规则剪枝,削减了规则自动学习 过程所带来的“噪声”;最终,为了进一步提高系统整体识别性能,提出“时间 基元”概念,并将自然语言处理领域中的分词技术应用到“时间基元”规则的构 建中来,实验结果显示,该算法显著的提高了时间表达式识别的整体性能。 “自动构建时间基元规则库”算法是本文的主要创新工作,它是一种基 于正则文法的时间表达式识别算法:它基于“时间基元”进行规则构建,提高了 时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,提高了 识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实 验结果显著超过了现有水平,F.score达到89.8%。 此外,本文提出的算法具有很好的通用性和扩展性,它可以有效利用训 练语料自动构建特定领域高精度的规则库,进而完成实体识别任务。 最终,结合上述研究成果,实现了完整的基于“自动构建时间基元规则 库”算法的中文时间表达式识别系统。 关键词:时间表达式识别,时间基元,TIMEX2,错误驱动,正则表达 式,命名实体识别,条件最大熵,条件随机场 中图分类号:TP3 Abstract Named hasreceivedmoreandmoreattentions entityrecognitiontechnique withthe ofinformation great processingtechnology.In recentlyalong development this willfocusontime isoneofthemost dissertation,it expressionrecognition,which directionswithinnamed researcharea. important entityrecognition ofuseful withinnatural Time has alot language expressionquite appl

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档