- 1、本文档共24页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
;本章主要讲述SparkGraphX:图计算框架。;通过学习本节将能够学习SparkGraphX:图计算框架。
通过本节学习可以:
理解图与图计算的基本概念
掌握GraphX图的创建方法
掌握GraphX的基本操作
掌握以GraphX进行关联聚合操作
;认识SparkGraphX
图的基本概念、图计算的应用、GraphX的基础概念、GraphX的发展
了解GraphX常用API
图的创建与存储、数据查询与数据转换、结构转换与关联聚合
构建信任网络并找出目标用户
构建网站信任网络、找出需要支付稿酬的用户、找出进入热门榜的用户
;1.背景
W网站是一个面向广大用户的消费品信息聚合网站,主要向用户提供各类日常消费品的点评信息,以帮助用户选到满意的商品。当用户登录网站后,可以发表对某件商品的点评,也可以参考其他点评者的点评信息。如果觉得某个点评信息的质量优秀,则可以将这个点评者纳入自己的信任列表。这样一来,在用户与用户之间就产生了一个基于信任关系的网络。如果某用户被其他用户纳入到信任列表的次数越多,则表明其信任值就越高。W网站为了鼓励用户做出优质的商品点评,会向信任值很高的用户支付一定的稿酬以鼓励点评,对于极受欢迎且达到一定活跃度的用户,可以进入热门点评榜,增加知名度;1.背景
目前网站已经积累了大量的用户数据,其中包括用户的个人信息,基本格式如表所示,Id表示用户
;1.背景
用户间的信任关系数据如表所示,FromNodeId为收藏信任点评人的用户Id,ToNodeId为被加入信任列表的用户Id,每一行数据表示左边的用户将右边的用户纳入了信任列表
;2.分析目标
主要是根据网站的需求,结合采集到的数据,利用SparkGraphX图计算工具完成以下任务
构建网站信任网络
找出网站需要支付稿酬的用户
找出有资格进热门点评榜的用户;3.构建网络信任图
构建网络信任图的步骤如下所示
先将数据上传到HDFS文件系统
导入图计算所需要的包
通过graph.fromEdges的方法创建信任网络图,顶点与边的属性设为常用的替代属性1L
;4.找出需要支付稿酬的用户
为了鼓励用户点评,所以对于信任度比较高的前50名用户会支付一定的稿酬。想要找出信任度比较高的用户,首先需??计算每个用户的被信任度,也就是计算每个顶点的入度数。计算完入度数之后,需要根据入度数进行排序,排序按照从高到低的顺序,然后从排序后的顶点数据中取出前50名作为奖励用户,这50名用户就是网站需要支付稿酬的用户了
;5.找出进入热门榜的用户
热门排行榜是用于对网站用户进行一个排名的,想上排行榜需要满足一定的要求才有资格进入。第一点就是用户的信任度必须在网站用户信任度排名中排在前3%;第二点就是用户的活跃度在满足第一点的用户中排在前5%,其中信任度表示入度数,活跃度表示出度数。根据以上要求,要找出满足条件的用户,第一点需要计算入度数并排列取出前3%的用户,然后再计算这3%的用户的出度数,取出前5%的用户,这部分用户即为可上榜用户
;5.找出进入热门榜的用户
;5.找出进入热门榜的用户
;5.找出进入热门榜的用户
进入热门榜的用户如图所示
;6.给用户推荐可信任用户
一个用户对另一个用户表示信任,那么他/她可能对于另一个用户所信任的其他用户的点评同样也比较信任。将信任人的信任人推荐给这个用户,属于二度关系推荐,这是常用的一种最简单的推荐方法。
这个过程可以称为二度关系或二跳邻居,二度关系推荐可抽象成在有向图中寻找到指定顶点的最短距离为2的所有顶点。具体求解过程如下
先构造一个属性图,为了存储符合关系的键值对(用户Id-度数),每个顶点的属性Attr初始化为Map(),然后进行两次迭代求解二度关系
;6.给用户推荐可信任用户
二度关系求解过程
使用aggregateMessages把VerticeID和第几度邻居的度数N作为一个键值对传播到出度点上,出度点把收集到的信息合成一个大Map
;6.给用户推荐可信任用户
二度关系求解过程
更新后的Vertice与原图进行“Join”,更新图中的变化过的点属性,将Map数据加入到图中进行下一轮的分析
;6.给用户推荐可信任用户
;6.给用户推荐可信任用户
二度关系求解过程
数据类型为(顶点Id,2度邻居顶点Id),现在将同一个用户的所有推荐用户Id合并成一个List,选取其中的10个作为推荐结果并且输出到HDFS
;6.给用户推荐可信任用户
推荐结果如图所示
;请简述SparkGraphX基本概念?
请简述GraphX常用API?
;描述了SparkGraphX:图计算框架。;在线学习:/graphx/;谢谢
您可能关注的文档
- 《Spark应用开发技术》课件——02_掌握Dstram编程模型.pptx
- 《Spark应用开发技术》课件——03_Spark Streaming实时更新热门博文.pptx
- 《Spark应用开发技术》课件——03_探索分析法律服务网站数据.pptx
- 《VR模型制作技术》课件——第1章一3ds Max的概述.pptx
- 《Web前端开发技术》课件——1-3 项目CSS修饰——盒子属性.pptx
- 《Web前端开发技术》课件——3-3 帮助信息页面——默认样式.pptx
- 【魔镜洞察】2024年五大行业流行趋势报告.pdf
- 人工智能 大规模预训练模型总体技术要求及评估方法(征求意见稿).docx
- 【Sinomonitor】2024智能手表品牌实力评估报告.pdf
- 化债之年-山东城投债务化解及展望研究报告 2024 -中诚信.pdf
文档评论(0)