大数据经典算法PageRank剖析.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据经典算法PageRank剖析

PageRank 能够对网页的重要性做出客观的评价 Page ? * 1、敏感度较高,反应较快 Google对新建的网站具有较高的查知性, Google收录新建网站的两个途径是: 第一,通过网站的外部链接; 第二,通过向Google提交网站登录数据。 如果Google对外部链接网站的评价高、收录频率高那么其发现新站的速度也相应地高,新建网站被收录的日期就会被提前。 2、并重相关性和重要性 Google 使用 PageRank 技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定有哪些信誉好的足球投注网站相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google 才把最相关最可靠的有哪些信誉好的足球投注网站结果放在首位。 PageRank 能够对网页的重要性做出客观的评价 Page ? * 4、较重视链接的文字描述 Google会把链接的文字描述作为关键词加以索引 PageRank 能够对网页的重要性做出客观的评价。 PageRank 并不计算直接链接的数量,而是把从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。 3、变化较快、机动性较高 Google 漫游器会定期抓取 Web,把大量网页列入索引。稍后完成的下一次抓取会注意到新网站、对现有网站的更改以及失效的链接,并对内容的变化在有哪些信誉好的足球投注网站结果中加以调整。 Page ? * 权威页与导航页 某些网页提供某个主题的信息,而且具有非常重要的信息,这些网页被称为权威页 不提供主题信息,但可以找到有关该主题的网页信息,这样网页的被称为导航页 “导航页和权威页”的计算方式类似于pagerank,通过矩阵-向量的方式迭代,直到一个收敛的点。其算法又称HITS算法。 pagerank考虑的是网页重要性的一维重要性信息,而HITS认为网页具有二维的重要性信息: Page ? * 导航页与权威页 表示形式:每个网页都有一个权威度和导航度属性,若分别用h和a来表示网页的两个属性,那么h和a第j个分量就分别表示第j个网页的权威度值和导航度值。 每个网页的导航度就等于累加其链出网页的权威度,每个网页的权威度就等于累加其链入网页的导航度。并保证归一化。 单击此处添加段落文字内容 单击此处添加段落文字内容 这样会形成一个回归方程:“导航页会指向很多权威页,而权威页会被很多导航页指向”。本质上,其仍然是矩阵-向量的迭代乘法运算。 Page ? * 导航度与权威度的计算 若网页的链接矩阵为L,导航度向量h,权威度向量a。 则: h = d* L * a, 其中d是一个常数, 及 : a = u * Lt * h, 其中Lt是L的转置。 L是一个0-1矩阵。 由以上交迭的运算方式,再推导: h = d * u * L * Lt * h a = d * u * Lt * L * a 由于L*Lt的求解不太方便,所以,用交迭的方式来计算h和a更好,每次计算都需要进行归一化。 因为图的特定结构查找是时间复杂度非常高的一个算法,不可能完全靠这种方法反作弊。 PageRank算法 一小组:王高翔,李渠,刘晴,柳永康,刘昊骋 二小组: 王飞,李天照,赵俊杰,陈超,陈瑾翊 基本PageRank 面向主题PageRank Link Spam与反作弊 导航页与权威页 一.Pagerank定义及终点,自连接点的概念 早期有哪些信誉好的足球投注网站引擎的弊端 Pagerank的定义 终止点 自连接点 1.早期有哪些信誉好的足球投注网站引擎的弊端 早期很多有哪些信誉好的足球投注网站引擎根本不评价结果重要性,而是直接按照某自然顺序(例如时间顺序或编号顺序)返回结果。一旦结果集变大,简直就是一场灾难,这也注定这种方法不可能用于现代的通用有哪些信誉好的足球投注网站引擎 基于检索词评价的思想非常朴素:检索关键词出现次数越多的页面匹配度越高,而匹配度越高的页面重要性越高 作弊者可在他网页上增加一个词项,并将该词项重复千百次,有哪些信誉好的足球投注网站引擎可能以为该网页与检索关键词高度相关而把该网页放在有哪些信誉好的足球投注网站结果的前列 Pagerank思想: “被越多优质的网页所指的网页,它是优质的概率就越大” 2.Pagerank的定义 Pagerank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于,网页的Pagerank越高,那么它就越“重要”。 首先,我们将Web做如下抽象:1、将每个网页抽象成一个节点;2、如果一个页面A有链接直接链向B,则存在

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档