- 1、本文档共64页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文时间表达式别研究
摘要
随着信息处理技术的飞速发展,命名实体识别技术越来越多的受到人们
的关注。本文所研究的时间表达式识别,就是命名实体识别领域一项基础而重要
的任务。
时间表达式在自然语言处理领域有着非常广泛的应用。在主题检测与跟
踪任务中,可以用时间来定位事件发生的先后顺序;在自动问答系统中,可以用
来回答和时间相关的问题,如“多久,何时”;在机器翻译任务中,时间顺序的
定位可以让译文更加通顺易读;甚至在网页结构分析方面,也有研究利用时间表
达式特征提高网页分析精度。
时间表达式识别技术主要分为两类:基于机器学习的序列标注方法和基
于规则的方法。本文分别对这两类方法进行了深入而细致的研究。
对于序列标注方法,本文介绍了目前主流的有监督学习模型:条件最大
熵和条件随机场,并且分别使用两种模型实现了完整的中文时间表达式识别系
统。实验结果显示,虽然序列标注方法在命名实体识别领域占据主流地位,但是
对于时间表达式识别任务,基于条件最大熵模型构建的系统F.score达到79.1%,
基于条件随机场模型构建的系统F.score达到79.5%,两者都无法缀有效的完成
时间表达式识别任务。
目前,时间表达式识别领域,最为广泛使用的仍然是经典的基于规则的
方法,本文也针对基于规则的方法进行了深入的探索。首先,构建人工规则库:
然后,为了提高召回率,解决人工消耗问题,设计了基于训练语料自动学习规则
的时间表达式识别算法,这样做充分利用了训练语料中大量的己标注信息;接着,
为了提高正确率,本文又结合错误驱动思想进行规则剪枝,削减了规则自动学习
过程所带来的“噪声”;最终,为了进一步提高系统整体识别性能,提出“时间
基元”概念,并将自然语言处理领域中的分词技术应用到“时间基元”规则的构
建中来,实验结果显示,该算法显著的提高了时间表达式识别的整体性能。
“自动构建时间基元规则库”算法是本文的主要创新工作,它是一种基
于正则文法的时间表达式识别算法:它基于“时间基元”进行规则构建,提高了
时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,提高了
识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实
验结果显著超过了现有水平,F.score达到89.8%。
此外,本文提出的算法具有很好的通用性和扩展性,它可以有效利用训
练语料自动构建特定领域高精度的规则库,进而完成实体识别任务。
最终,结合上述研究成果,实现了完整的基于“自动构建时间基元规则
库”算法的中文时间表达式识别系统。
关键词:时间表达式识别,时间基元,TIMEX2,错误驱动,正则表达
式,命名实体识别,条件最大熵,条件随机场
中图分类号:TP3
Abstract
Named hasreceivedmoreandmoreattentions
entityrecognitiontechnique
withthe ofinformation
great processingtechnology.In
recentlyalong development
this willfocusontime isoneofthemost
dissertation,it expressionrecognition,which
directionswithinnamed researcharea.
important entityrecognition
ofuseful withinnatural
Time has alot language
expressionquite appl
您可能关注的文档
最近下载
- ICU火灾应急预案演练脚本.doc VIP
- 新部编人教版小学语文二年级下册快乐读书吧《神笔马良》整本书阅读指导课教学课件.pptx
- 中职类科研课题申报书:中职数学教学融合专业课知识研究.docx VIP
- 网络语言及其对青少年的影响.docx VIP
- 垃圾渗滤液项目设备安装施工方案.doc
- 超声引导下颈内静脉穿刺术.ppt
- 2025年人教版高中地理必修第二册第三章产业区位因素第三节服务业区位因素及其变化.pptx VIP
- 2024年苏州工业职业技术学院单招职业技能测试题库及答案(名校卷).docx VIP
- 养成学习好习惯(教案).doc
- INOVANCE汇川-SV600P系列伺服调试手册-中文.pdf
文档评论(0)