- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基干词向量包自动文摘方法
基干词向量包自动文摘方法 〔摘要〕[目的]利用向量空间描述语义信息,研究基于词向量包的自动文摘方法;[方法]文摘是文献内容缩短的精确表达;而词向量包可以在同一个向量空间下表示词、短语、句子、段落和篇章,其空间距离用于反映语义相似度。提出一种基于词向量包的自动文摘方法,用词向量包的表示距离衡量句子与整篇文献的语义相似度,将与文献语义相似的句子抽取出来最终形成文摘;[结果]在DUC01数据集上,实验结果表明,该方法能够生成高质量的文摘,结果明显优于其它方法;[结论]实验证明该方法明显提升了自动文摘的性能
〔关键词〕词向量;词包向量;自动文摘
DOI:10.3969/j.issn.1008-0821.2017.02.002
〔中图分类号〕G25437〔文献标识码〕A〔文章编号〕1008-0821(2017)02-0008-06
〔Abstract〕[Purposes]This work focused on automatic summarization by utilizing vector space to describe the semantics.[Methods]proposed a new representation based on word vector,which is called bag of word vector(BOWV),and employed it for automatic summarization.Words,phrases,sentences,paragraphs and documents could be represented in a same vector space by using BOWV.And the distance between representations was used to reflect the semantic similarity.For automatic summarization,the paper used the distance between BOWVs to measure the semantic similarity between sentences and document.The sentences similar with the document are extracted to form the summary.[Findings]Experimental results on DUC01 dataset showed that the proposed method could generate high-quality summary and outperforms comparison methods.[Conclusions]The experiment showed that this research improved the performance of automatic summarization significantly.
〔Key words〕vector;bag of word vector;automatic summarization
随着Internet的快速发展,电子文本数量呈现出指数增长的趋势。为了更好地利用这些信息,人们迫切需要信息压缩手段对大量的信息进行提炼、浓缩。文摘可以概括原始文档,让用户快速理解文本信息。而手工编写文摘费时费力,因此利用计算机自动生成文摘已经成为自然语言处理领域的一个重要研究课题
文摘也称摘要,是简明、确切地记述原始文献中重要内容的短文。自动文摘就是使用计算机自动生成文摘。从生成方式来看,自动文摘可分为抽取型文摘和生成型文摘。抽取型文摘从原文中抽取句子形成文摘。生成型文摘则使用“自己的话”来概括原文。相比于抽取型文摘,生成型文摘难度更大。目前,生成型文摘尚难以付诸实践,抽取型文摘是现阶段主要的研究方向[1]
文摘抽取方法大体可分为3类:①将其视作一个句子排序问题,主要任务是给句子打分,得分高的句子被纳入到最终的文摘之中,得分低的则被排除在外。打分的依据一般包括词频及分布特点[2]、句子在段落中的位置[3]、句子的相似性[4]等;②将其视作一个二元分类问题,将文档中的摘要句作为正例,非摘要句作为反例,使用的分类模型主要有朴素贝叶斯模型[5]、决策树[6]、支持向量机[7]、人工神经网络[8]等;③将其视作一个序列标注问题,将文档中的摘要句标注为1,非摘要句标注为0,使用的模型主要有隐马尔可夫模型[9]和条件随机场[10]
抽取型文摘是由文档中的句子组成,因此句子的表示是一个关键问题。句子是词的序列,句子的表
文档评论(0)