基于主题词权重和句子特征的自动文摘基于主题词权重和句子特征的自动文摘.pdf

基于主题词权重和句子特征的自动文摘基于主题词权重和句子特征的自动文摘.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于主题词权重和句子特征的自动文摘基于主题词权重和句子特征的自动文摘

华南理工大学学报(自然科学版) 第38卷第7期 JournalofSouthChina of V01.38No.7 UniversityTechnology 2010年7月 Science 2010 (Natural Edition) July 基于主题词权重和句子特征的自动文摘术 蒋昌金1 圜1陈建超2 马千里1 摘要:为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词 性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短 语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和 用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘 要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回 率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%. 关键词:主题词;自动文摘;组合词;权重计算;句子特征 中图分类号:TP391.1 自动文摘技术本质上是一个用机器自动提取原 文中在组合词识别的基础上,提出了一个词语 文中最重要和有用信息、按照篇幅长短提供原文浓 权重计算方法,该方法能使表达主题的词获得较高 缩版的过程.自动文摘有两类方法…:基于统计的 的权值.然后构造了一个根据句子所含内容、位置、 自动文摘方法和基于自然语言理解的自动摘要方 线索词和用户偏好等因素计算句子权重的公式,并 法.前者抽取原文中出现的句子构成文摘,技术比较 通过能消除冗余的方法获取文摘. 成熟,而后者需要借助深层次的自然语言处理技术 1 关键技术 如语义推理等理解原文,生成文摘,文摘中的句子可 能是原文中没有的. 1.1 组合词的识别与分词修正 自从Luhn【21于1958年提出自动文摘概念以 对中文文本的处理首先牵涉到分词.现有的分 来,中外学者提出了各种各样的文摘方法.Edmund, 词系统因受所使用分词词典的限制,无法识别大量 80n等Ho根据句子位置和线索词来提取文摘句.No. 由两个词或两个以上的词组成的组合词.所谓组合 moto等M1提出了一种无监督自动摘要方法,该方法 词是这样的词,它客观上表达一个独立、特定的语 通过在原文中发现概念和减少文摘冗余来实现自动 义,但却被分词系统错误的切分为多个词.各种术 摘要.Salton等No将内容的交叠大于规定阈值的段 语、命名实体、关键词等基本上都是组合词,因此组 落归为一组,以此来寻找文章的子主题.李蕾等∞1 合词在表达文章的主题方面占有极重要的位置.本 通过设计义块组配的方法,将语句理解与文摘信息 算法首先利用基于词序列频率有向网的中文组合词 提取直接相连,以提高理解的效率和文摘生成的速 提取算法19J,识别出文章中的组合词.该算法首先 度.王志琪等一1提出一种基于互增强关系(MRP)的 建立描述文本中的词序列出现频率的有向网,然后 迭代算法,模拟句子和词之间的循环加权关系,计算 通过独特的矩阵运算,逐步把组合词识别出来,组合 句子权重,从而形成文摘.Chen等o提出一种基于

您可能关注的文档

文档评论(0)

vshoulrengb3 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档