《Spark应用开发技术》课件——03_构建信任网络并找出目标用户.pptxVIP

《Spark应用开发技术》课件——03_构建信任网络并找出目标用户.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

;本章主要讲述SparkGraphX:图计算框架。;通过学习本节将能够学习SparkGraphX:图计算框架。

通过本节学习可以:

理解图与图计算的基本概念

掌握GraphX图的创建方法

掌握GraphX的基本操作

掌握以GraphX进行关联聚合操作

;认识SparkGraphX

图的基本概念、图计算的应用、GraphX的基础概念、GraphX的发展

了解GraphX常用API

图的创建与存储、数据查询与数据转换、结构转换与关联聚合

构建信任网络并找出目标用户

构建网站信任网络、找出需要支付稿酬的用户、找出进入热门榜的用户

;1.背景

W网站是一个面向广大用户的消费品信息聚合网站,主要向用户提供各类日常消费品的点评信息,以帮助用户选到满意的商品。当用户登录网站后,可以发表对某件商品的点评,也可以参考其他点评者的点评信息。如果觉得某个点评信息的质量优秀,则可以将这个点评者纳入自己的信任列表。这样一来,在用户与用户之间就产生了一个基于信任关系的网络。如果某用户被其他用户纳入到信任列表的次数越多,则表明其信任值就越高。W网站为了鼓励用户做出优质的商品点评,会向信任值很高的用户支付一定的稿酬以鼓励点评,对于极受欢迎且达到一定活跃度的用户,可以进入热门点评榜,增加知名度;1.背景

目前网站已经积累了大量的用户数据,其中包括用户的个人信息,基本格式如表所示,Id表示用户

;1.背景

用户间的信任关系数据如表所示,FromNodeId为收藏信任点评人的用户Id,ToNodeId为被加入信任列表的用户Id,每一行数据表示左边的用户将右边的用户纳入了信任列表

;2.分析目标

主要是根据网站的需求,结合采集到的数据,利用SparkGraphX图计算工具完成以下任务

构建网站信任网络

找出网站需要支付稿酬的用户

找出有资格进热门点评榜的用户;3.构建网络信任图

构建网络信任图的步骤如下所示

先将数据上传到HDFS文件系统

导入图计算所需要的包

通过graph.fromEdges的方法创建信任网络图,顶点与边的属性设为常用的替代属性1L

;4.找出需要支付稿酬的用户

为了鼓励用户点评,所以对于信任度比较高的前50名用户会支付一定的稿酬。想要找出信任度比较高的用户,首先需??计算每个用户的被信任度,也就是计算每个顶点的入度数。计算完入度数之后,需要根据入度数进行排序,排序按照从高到低的顺序,然后从排序后的顶点数据中取出前50名作为奖励用户,这50名用户就是网站需要支付稿酬的用户了

;5.找出进入热门榜的用户

热门排行榜是用于对网站用户进行一个排名的,想上排行榜需要满足一定的要求才有资格进入。第一点就是用户的信任度必须在网站用户信任度排名中排在前3%;第二点就是用户的活跃度在满足第一点的用户中排在前5%,其中信任度表示入度数,活跃度表示出度数。根据以上要求,要找出满足条件的用户,第一点需要计算入度数并排列取出前3%的用户,然后再计算这3%的用户的出度数,取出前5%的用户,这部分用户即为可上榜用户

;5.找出进入热门榜的用户

;5.找出进入热门榜的用户

;5.找出进入热门榜的用户

进入热门榜的用户如图所示

;6.给用户推荐可信任用户

一个用户对另一个用户表示信任,那么他/她可能对于另一个用户所信任的其他用户的点评同样也比较信任。将信任人的信任人推荐给这个用户,属于二度关系推荐,这是常用的一种最简单的推荐方法。

这个过程可以称为二度关系或二跳邻居,二度关系推荐可抽象成在有向图中寻找到指定顶点的最短距离为2的所有顶点。具体求解过程如下

先构造一个属性图,为了存储符合关系的键值对(用户Id-度数),每个顶点的属性Attr初始化为Map(),然后进行两次迭代求解二度关系

;6.给用户推荐可信任用户

二度关系求解过程

使用aggregateMessages把VerticeID和第几度邻居的度数N作为一个键值对传播到出度点上,出度点把收集到的信息合成一个大Map

;6.给用户推荐可信任用户

二度关系求解过程

更新后的Vertice与原图进行“Join”,更新图中的变化过的点属性,将Map数据加入到图中进行下一轮的分析

;6.给用户推荐可信任用户

;6.给用户推荐可信任用户

二度关系求解过程

数据类型为(顶点Id,2度邻居顶点Id),现在将同一个用户的所有推荐用户Id合并成一个List,选取其中的10个作为推荐结果并且输出到HDFS

;6.给用户推荐可信任用户

推荐结果如图所示

;请简述SparkGraphX基本概念?

请简述GraphX常用API?

;描述了SparkGraphX:图计算框架。;在线学习:/graphx/;谢谢

文档评论(0)

青柠职教 + 关注
实名认证
服务提供商

从业10年,专注职业教育专业建设,实训室建设等。

1亿VIP精品文档

相关文档