- 1、本文档共44页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
在Pregel计算模型中,图中的每个顶点会对应一个计算单元,每个计算单元包含三个成员变量: 顶点值(Vertex value):顶点对应的PR值 出射边(Out edge):只需要表示一条边,可以不取值 消息(Message):传递的消息,因为需要将本顶点对其它顶点的PR贡献值,传递给目标顶点 每个计算单元包含一个成员函数Compute(),该函数定义了顶点上的运算,包括该顶点的PR值计算,以及从该顶点发送消息到其链出顶点 9.7.2 PageRank算法在Pregel中的实现 9.7.2 PageRank算法在Pregel中的实现 class PageRankVertex: public Vertexdouble, void, double { public: virtual void Compute(MessageIterator* msgs) { if (superstep() = 1) { double sum = 0; for (;!msgs-Done(); msgs-Next()) sum += msgs-Value(); *MutableValue() = 0.15 / NumVertices() + 0.85 * sum; } if (superstep() 30) { const int64 n = GetOutEdgeIterator().size(); SendMessageToAllNeighbors(GetValue()/ n); } else { VoteToHalt(); } } }; 9.7.2 PageRank算法在Pregel中的实现 PageRankVertex继承自Vertex类,顶点值类型是double,用来保存PageRank中间值,消息类型也是double,用来传输PageRank值,边的value类型是void,因为不需要存储任何信息 这里假设在第0个超步时,图中各顶点值被初始化为1/NumVertices(),其中,NumVertices()表示顶点数目 在前30个超步中,每个顶点都会沿着它的出射边,发送它的PageRank值除以出射边数目以后的结果值。从第1个超步开始,每个顶点会将到达的消息中的值加到sum值中,同时将它的PageRank值设为0.15/NumVertices()+0.85*sum 到了第30个超步后,就没有需要发送的消息了,同时所有的顶点停止计算,得到最终结果 MapReduce也是谷歌公司提出的一种计算模型,它是为全量计算而设计 采用MapReduce实现PageRank的计算过程包括三个阶段: 第一阶段:解析网页 第二阶段:PageRank分配 第三阶段:收敛阶段 9.7.3 PageRank算法在MapReduce中的实现 9.7.3 PageRank算法在MapReduce中的实现 该阶段的任务就是分析一个页面的链接数并赋初值。 一个网页可以表示为由网址和内容构成的键值对 URL,page content,作为Map任务的输入。阶段1的Map任务把URL,page content映射为URL,PRinit,url_list后进行输出,其中,PRinit是该URL页面对应的PageRank初始值,url_list包含了该URL页面中的外链所指向的所有URL。Reduce任务只是恒等函数,输入和输出相同。 对右图,每个网页的初始PageRank值为1/4。它在该阶段中: Map任务的输入为: AURL,Acontent BURL,Bcontent CURL,Ccontent DURL,Dcontent Map任务的输出为: AURL,1/4,BURL,CURL,DURL BURL,1/4,AURL,CURL CURL,1/4,DURL DURL,1/4,AURL,BURL 1. 阶段1:解析网页 9.7.3 PageRank算法在MapReduce中的实现 该阶段的任务就是多次迭代计算页面的PageRank值。 在该阶段中,Map任务的输入是URL,cur_rank,url_list,其中,cur_rank是该URL页面对应的PageRank当前值,url_list包含了该URL页面中的外链所指向的所有URL。 对于url_list中的每个元素u,Map任务输出u,URL, cur_rank/|url_list|(其中,|url_list|表示外链的个数),并输出链接关系URL,url_list。 每个页面的PageRank当前值被平均分配给了它们的每个外链。Map任务的输出会作为下面Reduce任务的输入。对下图第一次迭代Map
您可能关注的文档
- 23你的生日是几月几号.ppt
- 23古诗两首夏日绝句示儿.ppt
- 23古诗词三首乡村四月四时田园杂兴渔歌子(整理筛选过).ppt
- 23孔子游春(教研课).ppt
- 23美丽的小兴安岭公开课配有教学设计.ppt
- 23第三节木素的化学构造.ppt
- 24.《大道之行也》(共38张).ppt
- 24.果园机器人公开课.ppt
- 24、散文诗两首说课用.ppt
- 24、皇帝的新装七年级语文.ppt
- 2024年学校党总支巡察整改专题民主生活会个人对照检查材料3.docx
- 2025年民主生活会个人对照检查发言材料(四个带头).docx
- 县委常委班子2025年专题生活会带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”对照检查材料四个带头:.docx
- 巡察整改专题民主生活会个人对照检查材料5.docx
- 2024年度围绕带头增强党性、严守纪律、砥砺作风方面等“四个方面”自我对照(问题、措施)7.docx
- 2025年度民主生活会领导班子对照检查材料(“四个带头”).docx
- 国企党委书记2025年度民主生活会个人对照检查材料(五个带头).docx
- 带头严守政治纪律和政治规矩,维护党的团结统一等(四个方面)存在的问题整改发言提纲.docx
- 党委书记党组书记2025年带头增强党性、严守纪律、砥砺作风方面等“四个带头”个人对照检查发言材料.docx
- 2025年巡视巡察专题民主生活会对照检查材料.docx
最近下载
- 《ISO 55013-2024 资产管理-数据资产管理指南》解读和实施指导材料(雷泽佳编制-2024).pdf VIP
- 肿瘤放化疗病人并发症护理课件.pptx VIP
- 新概念第一册lesson79.pptx VIP
- 政府采购机票操作手册.pdf VIP
- 二级展开式斜齿圆柱齿轮减速器设计说明书.pdf
- 字节跳动产品运营专员岗面试题库参考答案和答题要点.docx VIP
- 小学英语单词(带音标).pdf VIP
- 字节跳动运营数据分析师岗面试题库参考答案和答题要点.docx VIP
- 八年级数学上册专题15 半角模型证全等(原卷版).docx VIP
- 字节跳动新媒体运营专员岗面试题库参考答案和答题要点.docx VIP
文档评论(0)