网站大量收购闲置独家精品文档,联系QQ:2885784924

基于新闻网页主题要素的网页去重方法研究.pdfVIP

基于新闻网页主题要素的网页去重方法研究.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于新闻网页主题要素的网页去重方法研究

基于新闻网页主题要素的网页去重方法研究1 王鹏,张永奎,张彦,刘睿 山西大学计算机与信息技术学院,太原(030006 ) 计算智能与中文信息处理省部共建教育部重点实验室,太原(030006 ) 摘 要:网页检索结果中,用户经常会得到内容相同的冗余页面。本文提出了一种通过新闻 主题要素学习新闻内容的新闻网页去重算法。该方法的基本思想是:首先,抽取新闻要素中 关于事件发生的时间和地点短语;然后,通过抽取的时间和地点短语抽取新闻的内容;最终, 根据学习的新闻内容通过计算它们的相似度来判断新闻网页的重复度。实验结果表明,该方 法能够完成针对新闻内容的新闻网页的去重,并得到较高的查全率和查准率。 关键词:新闻主题要素,模糊匹配,去重算法 中图分类号:TP391 文献标识码:A 1 引言 随着计算机的普及以及互联网的迅猛发展,WWW 上的信息量剧增,怎样有效利用这 个空间就成为了当前研究的热点。现在,人们在网上查找一些东西用到更多的是有哪些信誉好的足球投注网站引擎系 统提供的智能导航系统。然而,广大的 Internet 用户在使用这些有哪些信誉好的足球投注网站引擎的时候,尤其是在 有哪些信誉好的足球投注网站一些关于突发事件新闻的时候,常常会发现输出结果中包含了大量内容重复的网页。这 些网页的存在,不但加重了用户检索和阅读的负担,而且浪费了大量的存储资源,降低了索 引效率,同时也影响了准确率和召回率。所以说,把这些重复的网页去掉将是一项具有实际 意义的工作。 2 网页去重与新闻主题要素 2.1 现有网页去重的方法 当前,提出的网页去重的方法还不是很多,代表性的方法有:基于聚类的方法[1,2] ﹑排 [3] [4] 除相同URL方法 ﹑基于特征码的方法 ,下面做一下简要介绍: 1)聚类的方法:该方法是基于网页文本内容以 6763 个汉字作为向量的基,文本的汉字 的字频就构成了代表网页的向量。通过计算向量的夹角决定是否是相同的网页。 2)排除相同 URL 方法:各种元有哪些信誉好的足球投注网站引擎去重的主要方法。它分析来自不同有哪些信誉好的足球投注网站引擎的 网页URL,相同的 URL 认为是相同的网页,给予去除。 3)基于特征码的方法:这种方法利用标点符号多数出现在网页文本的特点,以句号两边 各五个汉字作为特征码来唯一的表示网页。 2.2 网页重复的特点 1)重复率高。网页重复主要来自转载。网页转载非常容易。由于用户兴趣的驱动,网络 信息流通中人们通过复制方式进行信息共享,经典的文章,以及新闻网页,很容易引起人们 1本课题得到国家自然科学基金)、山西省自然科学基金)和山西省回国留学人员基 金(2002004 )的资助。 -1- 的关注,有时转载高达几十次之多。 2)存在噪声。转载时一般都“原样照搬”,保持文本内容和结构的一致,并尊重版权,在 开头加入了引文信息。也就是说这些网页在去掉噪声以后,能够在内容和结构方面能够保持 高度一致。 3) 新闻网页的重复也来自对于同一事件的不同报道,尤其是对于人们关注的热点新闻。 这些新闻报道由于不是转载,所以说可能从他们的结构上是不能达到去重的效果,但是由于 他们是对同一事件的报道,其实他们的重复率还是很高的,是需要去重的。 在本文中我们认为的网页的重复有两种: 一就是前两种情况,二就是第三种情况。由于 以前提出的方法都是通过文章结构或字频来进行网页的去重,没有能够参照文章内容所表达 的意思来进行去重,所以那些方法只可以对前两种方法进行网页去重的处理,而不能对后面 出现的第三种情况做出处理。在本文中我们提出了一种对新闻内容学习的方法,采用这种方 法我们就能够对出现这三种情况的新闻网页进行去重。 2.3 新闻网页的主题要素 新闻是一种特殊的文体,是对最近生的或者正在发生的事实的报道。要想让读者理解清 楚一篇报道的内容,至少要表达清楚新闻的 6 大基本要素,即“5W”和“1H” 。否则,就说不 清事实,传达不明白信息,让读者看不明白,这样的

文档评论(0)

xingkongwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档