网站大量收购独家精品文档,联系QQ:2885784924

大数据管理与应用 课件 王刚 第9--16章 数据关联分析--- 大数据管理与应用进展.pptx

大数据管理与应用 课件 王刚 第9--16章 数据关联分析--- 大数据管理与应用进展.pptx

  1. 1、本文档共246页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第九章数据关联分析大数据管理与应用——

01数据关联分析概述02关联规则分析03序列模式分析

数据关联分析(AssociationAnalysis)又称数据关联挖掘,是数据挖掘(DataMining)中一项基础又重要的方法,旨在是挖掘隐藏在数据间的相互关系,即通过对给定的一组项目和一个记录集的分析,得出项目集中项目之间的相关性。其包括两个方面,即关联规则分析(AssociationRulesAnalysis)与序列模式分析(SequencePatternAnalysis)。关联规则分析关联规则分析用于寻找数据集中各项之间的关联关系。序列模式分析序列模式分析则侧重于分析数据间的前后序列关系,发现某一时间段内数据的相关处理,预测将来可能出现值的分布。1.1数据关联分析的基本概念

关联分析可以分为以下几种类型:按照规则中处理的变量类型,关联规则可以分为布尔型和数值型。布尔型关联规则处理的是离散的、种类化的值,它显示了这些变量之间的关系。数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理。按照规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的。而在多层的关联规则中,对数据的多层性进行了充分的考虑。按照规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。在单维的关联规则中,只涉及到数据的一个维度,而在多维的关联规则中,要处理的数据将会涉及多个维度,即单维关联规则处理单个属性中的一些关系,多维关联规则处理多个属性之间的某些关系。1.1数据关联分析的基本概念

关联分析中最有名的案例是“啤酒与尿布”的故事,沃尔玛的“啤酒与尿布”案例正式刊登在1998年的《哈佛商业评论》上面。在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会被同时购买的现象。目前,关联分析已经成为一种常用的挖掘算法,其逻辑简单、功能强大,被广泛应用于如下场景:产品推荐与引导根据购买记录,通过关联分析发现群体购买习惯的内在共性,指导超市产品摆放。特征筛选在一般使用的相关性系数方法中,只能判断两个变量间的相关性,而通过关联分析得到的规则,可以判断多个变量之间的关系。1.1数据关联分析的基本概念

?1.2关联规则分析

?1.2关联规则分析

?1.2关联规则分析

关联规则分析的建模:算法关联规则最为经典的算法是Apriori算法,由Agrawal等人在1993年提出,其使用的一个典型的关联规则的例子是购买轮胎和自动配件的顾客中98%的顾客将倾向于同时接受汽车的保修和保养服务。但是,Apriori算法需要多次扫描数据库,并且当设置的支持度阈值较小时,容易出现呈爆炸式增长的“长”关联规则。FP-Growth算法采用分而治之的策略,只需要扫描两次原始数据集,它不适用候选集,直接将数据库压缩成一个FP-Tree(频繁模式树),最后通过这棵树生成关联规则。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较Apriori算法有巨大的提高。1.2关联规则分析

Apriori算法:Apriori算法概述假设一个商店中有四种在售商品,工作人员想分析出顾客经常同时购买哪几种商品,从而确定销售策略。假设这四种商品分别为商品1、商品2、商品3、商品4。那么一位顾客可能购买的商品组合由图9-1所示。要完成一家只售卖四种商品的频繁项集挖掘,需要扫描全部交易记录15次。随着商店中商品种类的增长,需要遍历的次数呈现指数增长。1.2关联规则分析图9-1可能购买的商品组合

Apriori算法:Apriori算法概述为了提高频繁项集挖掘的效率,Agrawal提出了一种Apriori原理,其可以大大减少扫描次数。具体原理为:如果某个项集是频繁的,那么它的所有子集都是频繁的。在图9-2中,如果已知{1,3}是非频繁项集,利用Apriori原理,可以推理出{1,2,3}、{1,3,4}、{1,2,3,4}都是非频繁项集,这样就可以减少三次扫描。使用该原理可以避免项集数量的指数增长,也可以避免极长的项集出现,从而可以在合理时间内找到频繁项集集合。1.2关联规则分析图9-2Apriori原理示例

?1.2关联规则分析TID项集1面包、牛奶、啤酒、尿布2面包、牛奶、啤酒3啤酒、尿布4面包、牛奶、花生表9-1事务数据库D

1.2关联规则分析?

1.2关联规则分析?

FP-growth算法:FP-Growth算法是2000年由JiaweiHan等提出来的。FP-

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档