- 1、本文档共54页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
文本蕴含识别旨在推断两段文本之间的语义关系:蕴含、矛盾、中立。在
该任务中,如何能够使深度学习模型更好地理解文本的语义,对于文本之间的
语义关系分类至关重要。目前,大多数文本蕴含识别方法都是通过互注意力的
方法,判定句子之间的语义关系,这种方法只能捕捉句子之间的交互信息,弱
化了句子本身的全局信息,且没有考虑到句子的句法结构信息;同时,这些模
型在面对低频词时表现欠佳。基于上述问题,本文提出了以下解决方法。
(1)针对大多数深度学习模型只能捕捉句子交互信息,且未考虑句法结构信
息这一问题,本文提出了融入句法结构和摘要信息的文本蕴含识别模型。通过
结合自注意力和互注意力机制的方式,从句子的全局和局部交互信息考虑,并
融入句子的句法结构信息,从而更准确地推测句子之间的语义关系;同时,收
集和整理了公务员试题的部分选择题,利用摘要信息抽取的方法,解决公务员
试题中题目冗长和答案简短导致的长度不对称问题,最后,将该模型和文本蕴
含识别的思想应用于试题答题中。实验结果表明,该模型在公共数据集和公务
员试题上的表现,超越了多个基准模型。
(2)针对深度学习模型面对低频词表现欠佳的问题,本文展开了基于文本增
强的文本蕴含识别研究。该方法根据词频阈值划分不同的低频词序列,通过义
原信息增强和同义词替换的方式,增强低频词语义信息,如果不存在义原或同
义词,则进行字级别信息增强。通过实验对比发现,两种文本增强策略均可带
来不同程度的性能提升,特别是在单独抽取出包含低频词的语句对时,性能提
升更加显著。
关键词:文本蕴含识别;自注意力;句法结构信息;摘要信息抽取;文本增强
I
Abstract
RecognizingTextualEntailmentaimstoinferthesemanticrelationshipbetween
twopiecesoftext:Entailment,Contradiction,Neutral.Inthistask,itiscrucialto
enabledeeplearningmodelstobetterunderstandthesemanticmeaningoftextforthe
classificationofsemanticrelationshipsbetweentexts.Currently,mostRecognition
TextualEntailmentmethodsusethemethodofmutualattentiontodeterminethe
semanticrelationshipbetweensentences,whichcanonlycapturetheinteraction
informationbetweensentences,weakentheglobalinformationofsentences,anddo
notconsiderthesyntacticstructureinformationofsentences.Moreover,thesemodels
performpoorlywhendealingwithlow-frequencywords.Basedontheabove
problems,thisarticleproposesthefollowingsolutions.
(1)Toaddresstheissuethatmostdeeplearningmodelscanonlycapturethe
interactioninformationbetweensentencesanddonotconsidersyntacticstructure
in
文档评论(0)