网站大量收购独家精品文档,联系QQ:2885784924

分布式计算、云计算与大数据 第2版 课件 第11章 保险大数据分析案例.ppt

分布式计算、云计算与大数据 第2版 课件 第11章 保险大数据分析案例.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于历史销售策略的回归检验场景三背景保险公司在销售某款产品的时候,根据用户的若干特征做优先级推荐销售策略。这些特征具体对销售的结果影响如何,在传统BI系统下依据统计的方法很难得出相关的结论,只能通过宏观的销售额来大致确定销售策略是否有效。基于历史销售策略的回归检验场景三目标通过大数据分析的手段得出每个特征对购买结果的影响程度,检验以往的推销策略是否有效,从而在下一年的销售当中促进保险的销售额。本案例的3个功能目标(3个算法)1.根据销售数据中投保人与受益人的关系信息,基于GraphX进行家谱信息的挖掘;2.根据某保险产品的历史销售数据,基于分片的随机森林算法进行用户推荐,并按用户购买该产品的概率大小进行排序;3.根据历史销售数据的用户特征数据,基于FP-Growth关联规则挖掘算法进行回归检验,比较各特征对销售结果的影响。提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展基于GraphX的并行家谱挖掘算法为什么使用图算法?传统的家谱挖掘算法,需要自上而下多次扫描所有的数据,十分消耗系统资源,甚至很容易出现极端情况使得挖掘结果出现异常,使用图算法则能够有效地提高效率。基于GraphX的并行家谱挖掘算法算法简介基于GraphX的并行家谱挖掘算法算法执行步骤1.利用数据存储图2.通过图计算出所有连通分量基于GraphX的并行家谱挖掘算法步骤一:存储图存储图需要点集和边集,点集可以使用用户映射表,边集则可以使用用户关系表。点集和边集存储图的过程如右图所示基于GraphX的并行家谱挖掘算法使用深度优先算法对图进行有哪些信誉好的足球投注网站,算法的流程如右图所示步骤二:计算连通分量基于分片技术的随机森林算法为什么不用其他算法?待训练的维度相互之间存在不独立的现象朴素贝叶斯分类数据分布不均匀且每个特征都存在着严重的不均衡性SVM和决策树算法基于分片技术的随机森林算法为什么使用随机森林算法?随机森林算法由若干棵决策树构成,每一棵决策树都能对正确目标给出合理、独立且互不相同的估计,这些数的集体平均预测应该比任一个体的预测更接近正确答案。基于分片技术的随机森林算法不平衡分类问题,如何分配数据?对数据进行分片处理,在这个问题中,多数类指“未购买”,少数类指“购买”,将多数类平均分成若干个子集,每个子集都和少数类合并为一个新的训练集,每个训练集独立构建分类器基于分片技术的随机森林算法针对不平衡问题的评判准则?针对不平衡分类问题,学术界提出了众多新的评价准则,主要有:召回率recall、准确率precision、F-value等。对于这里的基于分片技术的随机森林算法,我们使用F-value值来评判算法的效果。基于分片技术的随机森林算法F-value公式(4-3)(4-2)(4-1)基于分片技术的随机森林算法建模流程图基于内存计算的FP-Growth关联规则挖掘算法为什么不用贝叶斯公式?1.计算繁琐,对每个特征都需要计算一次2.贝叶斯公式只能通过人为指定特征的方法计算3.计算繁琐,对每个特征都需要计算一次基于内存计算的FP-Growth关联规则挖掘算法关联规则分析其常见算法有:FP-Growth算法Apriori算法思想简单,实现方便,得到了广泛的应用。但是该算法需要多次扫描数据库并产生大量中间结果,应用面比较窄分而治之,将数据做切分后,分配到各个部分中,每个部分都将其项集压缩到一个频繁项集树(FP-tree)中,然后从树的子节点以深度优先的方法挖掘出频繁项集。只需要扫描数据库两遍,在时间和空间性能上都比Apriori算法优异许多基于内存计算的FP-Growth关联规则挖掘算法建模过程1.构建数据全集D,每行都包括用户身份证号,特征集合。2.挖掘频繁项集,设定支持度为s,挖掘出现次数大于s的子集。3.挖掘关联规则,设定置信度c,挖掘置信程度大于c的规则,并通过计算提升度(lift)系数来评判关联规则的相关性。提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展环境准备操作系统/软件名称版本号Windows10Java1.8.0_74Scala2.11.8IntelliJIDEA2016.3Maven3.3.9Spark2.0.0提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展实现方法4.1基于GraphX的并行家谱挖掘—数据准备本节用到的数据集为dataSet.csv,源数据的格式及字段的含义可参考右图实现方法4.1基于GraphX的并行家谱挖掘—代码步骤构建点集和边集构造图与计算连通分量进行家谱挖掘,并

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档