PageRank Algorithm2算法.pdf

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PageRank Algorithm2算法

PageRank Algorithm /web/2012/0705/260914.shtml 有哪些信誉好的足球投注网站引擎的核心框架 有哪些信誉好的足球投注网站引擎的两个核心问题 1)建立资料库 利用爬虫(Spider)来实现。(可将资料库抽象的看作一个 Key-Value结构,Key是页面url,Value是页面内容)。 2 )建立一种数据结构,可以根据关键词找到含有这个词的 页面 通过倒排索引(Inverted Index)的数据结构来实现。 (也是一个抽象的Key-Value结构,Key是关键词,Value 是一个页面编号集合(假设资料库中每个页面有唯一编 号),表示这些页面含有这些关键词。 范例 有哪些信誉好的足球投注网站“天云数据”: • 分词:“天云”,“数据” • 查找倒排索引: “天云”—{1,2,4,5,6,7,8,9} “数据”—{2,3,7,9,12} • 取倒排索引交集: {1,2,4,5,6,7,8,9}∩ {2,3,7,9,12}={2,7,9} • 返回查询页面: 2,7,9 有哪些信誉好的足球投注网站引擎的核心难题 • 如何对有哪些信誉好的足球投注网站结果进行排序: 即2,7,9对应的页面应该以何种次序展示 Web 页面数量非常巨大,所以一个检索的 结果条目数量也非常多,一个好的有哪些信誉好的足球投注网站引 擎必须想办法将“质量”较高的页面排在 前面。 早期有哪些信誉好的足球投注网站引擎的有哪些信誉好的足球投注网站结果排序原则 • 不评价有哪些信誉好的足球投注网站结果重要性 – 时间次序 – 编号顺序 • 基于检索词的评价 和检索词匹配度越高的页面重要性越高。“匹配度”就是要定义的具 体度量。一个最直接的想法是关键词出现次数越多的页面匹配度越高。 范例:页面2 中出现6次“天云”,8次“数据”;页面7中出现3次 “天云”,5次“数据”;页面9中出现9次“天云”,11次“数据”; 则2,7,9的匹配度分别为14,8,20 。重要程度排序为9,2,7。(改 进方法为关键词总次数/页面总词数) 缺点:非常容易受到一种叫“Term Spam ”的攻击 Term Spam 在页面中加入一个隐藏的html 元素(例如 一个div ),然后其内容是“天云”重复一万次。 这样,有哪些信誉好的足球投注网站引擎在计算“天云数据”的有哪些信誉好的足球投注网站结果 时,该页面关键词占比就会非常大,从而做到排 名靠前的效果。 更进一步,可以干扰别的关键词有哪些信誉好的足球投注网站结果, 例如知道现在“我是歌手”很火热,可以在某个 页面隐藏div 里加一万个“我是歌手”,当有用 户有哪些信誉好的足球投注网站“我是歌手”时,该页面就能出现在有哪些信誉好的足球投注网站 结果较靠前的位置。这种行为就叫做“Term Spam”。 PageRank算法 • PageRank 的作用是评价网页的重要性,以此作 为有哪些信誉好的足球投注网站结果的排序重要依据之一。实际中,为了 抵御spam,各个有哪些信誉好的足球投注网站引擎的具体排名算法是保 密的,PageRank 的具体计算方法也不尽相同; • 一种最简单的基于页面链接属性的PageRank 算 法。这个算法虽然简单,却能揭示PageRank 的 本质,实际上目前各大有哪些信誉好的足球投注网站引擎在计算 PageRank 时链接属性确实是重要度量指标之一。 PageRank基本思想 被用户访问越多的网页更可能质量越高,而用户 在浏览网页时主要通过超链接进行页面跳转,因 此需要通过分析超链接组成的拓扑结构来推算每 个网页被访问频率的高低 PageRank的计算,基于以下两点抽象,整个网络被抽象 成一张有向图: • 一个网页 一个节点; • 网页A有链接直接链向B,则存在弧AB (多个相同链接不重复计算 弧) PageRank计算—强连通图 范例1:假设有四个网页:A 、B、C、D,链接结构如下图,假设当一个 用户停留在某页面时,跳转到页面上每个链接的概率是相等的。例如: A链向B、C、D的概率均为1/3。 可以组织这样一个4 (N)维矩阵:其中i行j 列的值表示用户从页面j转 到页面i的概率。这样一个矩阵叫做转移矩阵(Transition Matrix

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档