[互联网]09_互联网垃圾网页识别.pdf

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[互联网]09_互联网垃圾网页识别

互联网垃圾网页识别 刘奕群 清华大学计算机系 智能技术与系统国家重点实验室 2012年7月11 日 数据质量评估的研究思路 质量= 访问概 用户浏览图 率 结构分析 有哪些信誉好的足球投注网站引擎用 质量= 用户需 户需求 数据质量评估: 求 其它网络应 定义“质量” 用用户需求 识别垃圾内 质量= 去除无 容网页 用内容 识别非法内 容网页 互联网垃圾网页现象  网页中出现的奇怪现象 十八大领导预测? 提要 垃圾页面的定义 垃圾页面的分类 垃圾页面识别技术  垃圾页面识别的效果评价  基于网页内容的垃圾页面识别  基于链接关系分析的垃圾页面识别  基于用户行为特性的垃圾页面识别 什么是垃圾页面 垃圾页面的定义  Web spam are designed to get “an unjustifiably favorable relevance or importance score” from search engines. (Gyongyi et. al. 2005)  垃圾页面是那些通过不正当的手段获取有哪些信誉好的足球投注网站引擎中 不应有的较高排名的网页  Web Spam ≠ E-mail Spam 垃圾网页现象 垃圾页面规模  超过10%的网络页面为垃圾页面(Fetterly et al. 2004, Gyöngyi et al. 2004)  网络页面总数:152 billion (How Much Info 2003) 垃圾页面的总量约为百亿规模 有哪些信誉好的足球投注网站引擎能够索引多少页面?  Google: 8 billion@2004, Yahoo: 20 billion@2005 垃圾页面数量与有哪些信誉好的足球投注网站引擎的索引规模相当! 是谁在制造垃圾页面  回顾:有哪些信誉好的足球投注网站引擎的盈利模式  间接:垄断用户对互联网信息的知情权  直接:广告收入(竞价排名) 提升有哪些信誉好的足球投注网站引擎结果中的排名 提升 制造 购买有哪些信誉好的足球投注网站 网页质量 垃圾页面 引擎广告 = = 是谁在制造垃圾页面 垃圾网页动机  希望提升有哪些信誉好的足球投注网站引擎排名  不乐意提升网页质量  不乐意支

文档评论(0)

jiupshaieuk12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档