web数据挖掘__12复习.ppt

  1. 1、本文档共169页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web数据挖掘__12复习创新

* * * * * * * * Implementation issues Web信息采集当前研究方向 基于整个Web的信息采集(Universal Web Crawling) 增量式Web信息采集 (Incremental Web Crawling ) 基于主题的Web信息采集(Focused Web Crawling ) 基于用户个性化的Web信息采集(Customized Web Crawling ) 基于Agent的信息采集(Agent Based Web Crawling ) 迁移的信息采集(Relocatable Web Crawling ) 基于元有哪些信誉好的足球投注网站的信息采集(Metasearch Web Crawling) 实际的采集器往往是几种采集技术的结合 * Chapter 10: Link Analysis Road map * Introduction Social network analysis PageRank HITS Summary PageRank * Sergey Brin 和 Lawrence Page于1998年提出PageRank算法 Google 采用的一种链接分析方法 仅通过权威性对网页排序,这样可以有校防止人为加工的页面欺骗有哪些信誉好的足球投注网站引擎。即由Web间的超链关系发现重要页面 应用于整个网络而不是围绕一个query结果主页的局部临近主页 PageRank * 根据社会关系网中的等级权威值,网页i的重要程度(它的PageRank)由指向它的其他网页的PageRank之和决定 由于一个网页可能指向许多其他的网页,那么PageRank值将被所有他所指向的网页所共享 PageRank 按照以上的用户行为模型,每个网页可能被访问到的次数越多就越重要 可能被访问的次数就定义为网页的权值,PageRank值 公式如下: Wj代表第j个网页的权值,li,j只取0,1的值,代表从网页i到网页j是否存在连接,ni代表网页i有多少个连向其他网页的链接,d代表“随机冲浪”中沿着链接访问网页的平均次数 * Advantages of PageRank * Fighting spam. A page is important if the pages pointing to it are important. Since it is not easy for Web page owner to add in-links into his/her page from other important pages, it is thus not easy to influence PageRank. PageRank is a global measure and is query independent. PageRank values of all the pages are computed and saved off-line rather than at the query time. Criticism: Query-independence. It could not distinguish between pages that are authoritative in general and pages that are authoritative on the query topic. HITS算法的提出 * 基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。 例如“Microsoft” 和 “Netscape”都是浏览器的权威主页,但并不互指 权威网页很少具有显式的描述 比如Google主页不会明确给出WEB有哪些信誉好的足球投注网站引擎之类的描述信息 PageRank算法中对于向外链接的权值贡献是平均的,Hits算法考虑了不同链接的重要性 HITS * HITS stands for Hypertext Induced Topic Search. Unlike PageRank which is a static ranking algorithm, HITS is search query dependent. When the user issues a search query, HITS first expands the list of relevant pages returned by a search engine and then produces two rankings of the expanded set of pages, authority ranking and hub ranking. 网页的权威性 Authority * 权威性是公认的提供重要度,

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档