- 1、本文档共57页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中英文新闻网页键词抽取技术研究
中英文新闻网页关键词抽取技术的研究
摘要
信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增
长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、
压缩和检索,提高信息访问的效率成了一个越来越重要的课题。作为网络信息
传播的重要载体,众多新闻网页没有关键词。对这些网页进行关键词抽取,将
提高用户浏览的速度和信息的访问效率。
从这点出发,本文研究了自然语言处理和信息检索技术的一个重要领域.
新闻网页的关键词自动抽取。在追踪了国内外研究现状,分析比较了各类关键
词抽取算法的基础上,提出了一种不依赖语种、不依赖训练语料库的单文档的
基于词汇链和词共现的新闻网页关键词抽取算法KEUD和算法KELCC。大量的
随机新闻网页实验结果表明,本文提出的算法是有效的新闻网页关键词抽取算
法。
综上所述,本文的主要工作如下:
(1)对新闻网页关键词抽取展开研究,从理论和实验两方面证明了基于语义
分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词
抽取算法KEUD实验验证的基础上,将词语相关性引入词语语义相似度分析中,
提出了基于词汇链与词共现的新闻网页关键词抽取算法KELCC;
(2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息
检索技术中,语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示
文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文
提供的有效信息,在构建词汇链过程中将词语的各个词义纳入到整个语境下考
查,通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义;
(3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性
能。通过对比实验,本文从文章、词汇链和知识库中提出了大量有效特征,借
助选取的特征从候选词集中选择出最终抽取的关键词;
(4)引入词语的相关性以解决未包含词语的抽取问题。提出的KEUD算法由
于需要判断词语间的语义相似度,而语义相似度的计算需要知识库的支持。因
此不能很好的处理未包含词的抽取问题。为了解决该问题,本文在该算法的基
础上加入了词共现模型,提出了基于词汇链与词共现的新闻网页关键词抽取算
法KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要
度,提高了对未包含词语的抽取能力。
关键词:关键词抽取,词汇链,词共现,歧义消解,相似性,相关性
ExtractionfromNewsWeb
Keyword Pages
Abstract
The ofinformation andthe ofthe
rapiddevelopment technologypopularity
Internethave a ofonlineinformation.Theretrievaland
brought
geometricgrowth
useofnetworkinformation
havebecomemoreandmoredifficult.Howto
organize
and volumes
of tosearchrelevant
compress information,how information,
large
and
howto the ofinformationaccessarenowall
improve
efficiency
文档评论(0)