- 1、本文档共56页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
随着大数据时代的到来,用户每天都会接收海量的来自于新闻、媒体、邮件等形
式的文章,如果每一篇文章都带有一段简短的摘要,那么用户就可以在有限的时间和
精力下选取更感兴趣的文章进行阅读。显然,人工撰写所有文章的摘要是不现实的,
所以人们希望有这样一个系统来自动生成摘要,自动文本摘要技术应运而生。自动文
本摘要是自然语言处理领域的一个子任务,同其他自然语言处理领域的任务一样,需
要对非结构的文本数据进行分析,获取最能代表文章内容的关键词或关键句子,来形
成摘要。一篇高质量的摘要,要求包括文章的主要内容,冗余度小且语句通顺流畅。
直接抽取原文的个别句子作为摘要则不存在语句不流畅的问题,基于此本文主要研究
抽取式的自动文本摘要。
迁移学习作为最近几年自然语言处理领域研究的热点,旨在通过知识的迁移,解
决某一领域或者某一种语言数据量小的问题,或者通过在某一个领域学习好的模型来
处理另一个领域的任务,减少工作量,节约时间成本。本文把迁移学习的思想应用到
自动文本摘要领域,通过特征的迁移,来帮助目标语言的摘要提取。这样,只需提取
一种语言的特征,就可以辅助他语言的文本摘要提取,减少工作量。
本文主要从两个方面展开对抽取式文本摘要的研究。首先,本文提出了基于最大
边界相关度的抽取式文本摘要模型(TextSummarizationBasedonMaximalMarginal
Relevance,TSMMR),其思想是通过词嵌入与句嵌入的文本向量表示方法来计算句子
之间的相似度,并考虑关键词与位置信息对句子重要性的影响对句子打分,得到高质
量的摘要。通过在英文数据集上的实证研究,结果显示,本文提出的基于最大边界相
关度的抽取式文本摘要模型抽取多句摘要的Rouge-L值(37.78%)高于传统的抽取式文
本摘要算法CI(29.35%)、TextRank(34.15%)和MMR(31.09%),表明结合词嵌入或句嵌
入的文本向量表示有助于提升文本摘要质量。
在基于最大边界相关度的抽取式文本摘要模型(TSMMR)的基础上结合迁移学习
的思想提出了跨语言文本摘要模型(CrossLingualMaximalMarginalRelevance,
CLMMR),实现关键词特征在不同语言环境下的迁移。基本思路是将源语言的关键词
特征迁移到目标语言每一篇文档的关键词特征中。由于语言的不同,源语言的关键词
特征不能直接用于目标语言,本文通过双语词向量对齐的方式将源语言和目标语言的
关键词特征映射到共同的特征空间,从而实现源语言特征到目标语言的转化,最后根
据TSMMR中的方式对句子进行打分从而抽取摘要。通过在跨语言的数据集上的实验
显示,加入其他语言的关键词特征,有助于当前语言文本摘要的抽取。
关键词:抽取式文本摘要;词嵌入;最大边界相关度算法;迁移学习;跨语言
Abstract
Withtheadventofthebigdataera,usersreceivealargenumberofarticlesfromnews,
media,email,etc.everyday.Ifeacharticlehasashortsummary,thenuserscanuselimited
timeandenergytoselectaninterestingarticletoread.Obviously,itisunrealistictowritea
summaryofeveryarticlebyhuman.Then,asystemtoautomaticallygenerateabstractsis
needed,thatistheautomatictextsummarizationtechnology.Automatictextsummarization
isasub-taskofthenaturallanguageprocessing.Likeothertasksofthenaturallanguage
processing,itisnecessarytoanalyzeu
您可能关注的文档
- 保险公司车险业务APP营销策略研究——以平安好车主APP为例.Removed-Output.pdf
- 不同质量信号对知识产品购买决策的影响研究.pdf
- 财税支持对农业企业经营绩效的影响研究——基于农业上市企业的实证分析.pdf
- 城市轨道交通PPP项目绩效评价研究.pdf
- 传统诗词VR传播平台的建立与发展.pdf
- 村庄组织对乡村治理的影响研究.pdf
- 大企业税收管理部门税收管理信息化建设存在的问题与对策研究——以S省税务局为例.pdf
- 大学生社交短视频App使用行为的调查研究——以武汉市洪山区普通高校为例.pdf
- 大学生信用消费风险现状及其影响因素研究——以武汉市大学生为例.pdf
- 单细胞数据的伪时间轨迹和调控网络推断研究.pdf
- 五个管好的意识形态工作总结.docx
- 在学校党员大会上的讲话:今年国际教育发展的四个主题.docx
- 在区廉政谈话会上的讲话.docx
- 学习贯彻2024年中央经济工作会议精神 打好政策“组合拳”保持经济稳定增长.pptx
- (7篇)学习贯彻中央经济工作会议精神研讨发言心得体会汇编.docx
- 关于“时代新人”视阈下高职思政课教学实践探究报告.docx
- (2025.01.05)关于城市营商环境现状与优化路径探索报告.docx
- 教育工作会议主题发言材料和讲话材料汇编(6篇).docx
- 镇党委副书记兼派出所所长关于2024年度民主生活会个人对照查摆剖析材料.docx
- 县委常委班子2024年度民主生活会对照检查.docx
文档评论(0)