- 1、本文档共246页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第九章数据关联分析大数据管理与应用——
01数据关联分析概述02关联规则分析03序列模式分析
数据关联分析(AssociationAnalysis)又称数据关联挖掘,是数据挖掘(DataMining)中一项基础又重要的方法,旨在是挖掘隐藏在数据间的相互关系,即通过对给定的一组项目和一个记录集的分析,得出项目集中项目之间的相关性。其包括两个方面,即关联规则分析(AssociationRulesAnalysis)与序列模式分析(SequencePatternAnalysis)。关联规则分析关联规则分析用于寻找数据集中各项之间的关联关系。序列模式分析序列模式分析则侧重于分析数据间的前后序列关系,发现某一时间段内数据的相关处理,预测将来可能出现值的分布。1.1数据关联分析的基本概念
关联分析可以分为以下几种类型:按照规则中处理的变量类型,关联规则可以分为布尔型和数值型。布尔型关联规则处理的是离散的、种类化的值,它显示了这些变量之间的关系。数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理。按照规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的。而在多层的关联规则中,对数据的多层性进行了充分的考虑。按照规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。在单维的关联规则中,只涉及到数据的一个维度,而在多维的关联规则中,要处理的数据将会涉及多个维度,即单维关联规则处理单个属性中的一些关系,多维关联规则处理多个属性之间的某些关系。1.1数据关联分析的基本概念
关联分析中最有名的案例是“啤酒与尿布”的故事,沃尔玛的“啤酒与尿布”案例正式刊登在1998年的《哈佛商业评论》上面。在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会被同时购买的现象。目前,关联分析已经成为一种常用的挖掘算法,其逻辑简单、功能强大,被广泛应用于如下场景:产品推荐与引导根据购买记录,通过关联分析发现群体购买习惯的内在共性,指导超市产品摆放。特征筛选在一般使用的相关性系数方法中,只能判断两个变量间的相关性,而通过关联分析得到的规则,可以判断多个变量之间的关系。1.1数据关联分析的基本概念
?1.2关联规则分析
?1.2关联规则分析
?1.2关联规则分析
关联规则分析的建模:算法关联规则最为经典的算法是Apriori算法,由Agrawal等人在1993年提出,其使用的一个典型的关联规则的例子是购买轮胎和自动配件的顾客中98%的顾客将倾向于同时接受汽车的保修和保养服务。但是,Apriori算法需要多次扫描数据库,并且当设置的支持度阈值较小时,容易出现呈爆炸式增长的“长”关联规则。FP-Growth算法采用分而治之的策略,只需要扫描两次原始数据集,它不适用候选集,直接将数据库压缩成一个FP-Tree(频繁模式树),最后通过这棵树生成关联规则。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较Apriori算法有巨大的提高。1.2关联规则分析
Apriori算法:Apriori算法概述假设一个商店中有四种在售商品,工作人员想分析出顾客经常同时购买哪几种商品,从而确定销售策略。假设这四种商品分别为商品1、商品2、商品3、商品4。那么一位顾客可能购买的商品组合由图9-1所示。要完成一家只售卖四种商品的频繁项集挖掘,需要扫描全部交易记录15次。随着商店中商品种类的增长,需要遍历的次数呈现指数增长。1.2关联规则分析图9-1可能购买的商品组合
Apriori算法:Apriori算法概述为了提高频繁项集挖掘的效率,Agrawal提出了一种Apriori原理,其可以大大减少扫描次数。具体原理为:如果某个项集是频繁的,那么它的所有子集都是频繁的。在图9-2中,如果已知{1,3}是非频繁项集,利用Apriori原理,可以推理出{1,2,3}、{1,3,4}、{1,2,3,4}都是非频繁项集,这样就可以减少三次扫描。使用该原理可以避免项集数量的指数增长,也可以避免极长的项集出现,从而可以在合理时间内找到频繁项集集合。1.2关联规则分析图9-2Apriori原理示例
?1.2关联规则分析TID项集1面包、牛奶、啤酒、尿布2面包、牛奶、啤酒3啤酒、尿布4面包、牛奶、花生表9-1事务数据库D
1.2关联规则分析?
1.2关联规则分析?
FP-growth算法:FP-Growth算法是2000年由JiaweiHan等提出来的。FP-
您可能关注的文档
- 大数据管理与应用 课件 王刚 第1--8章 绪论--- 数据聚类分析.pptx
- 大数据管理与应用 课件全套 王刚 第1--16章 绪论--- 大数据管理与应用进展.pptx
- 2024年度领导干部个人专题民主生活会、组织生活会对照检查材料(四个带头)和意见建议汇总.docx
- 在2025年国企纪检监察工作会议上的报告材料.docx
- 领导干部2024年民主生活会、组织生活会对照检查发言材料(四个带头).docx
- 市税务局分管领导2024年度民主生活会个人对照检查检视发言材料多篇.docx
- 财务部主任、公安局、审计局等2024年组织生活会个人对照检查发言材料合集.docx
- “政治引领、理论武装、赋能中心、强基固本、建强队伍、正风肃纪、群团统战”2025年国企党建工作要点2篇.docx
- 德能勤廉党组书记2024年度抓基层党建工作述职报告.docx
- 党课讲稿:学习“四史”,汲取奋进力量.docx
- 市直机关工委及个人述职述廉2024年党建工作情况报告材料.docx
- 区委书记在2025年一季度经济运行部署会议上的讲话发言材料.docx
- 市直机关单位、卫健委党支部2024年工作述职报告材料.docx
- 市委副书记、市长在2025年市委城乡规划委员会第一次会议上的讲话发言材料.docx
- 某单位领导干部2024年生活会、组织生活会对照检查材料(对照“四个带头”).docx
- 2024年民政局、宣传部、教育局基层主要领导个人述责述廉报告材料.docx
- 2025年2月党支部“三会一课”参考主题方案.docx
- 在某中学2025年春季开学典礼上的讲话:以“三重境界”燃动新学期.docx
- 2024年度领导干部专题民主生活会、组织生活会对照检查材料(四个带头)及学习研讨会上的发言材料.docx
- 市纪委市监委2025年度纪检监察工作计划.docx
最近下载
- 少先队大队委竞选ppt模板小学生自我介绍班委竞选卡通班干部课件 (10).pptx VIP
- 高等数学_大一_上学期知识要点.doc
- 集输初级工理论及技能操作试题(新)讲义.docx
- 2023综合安防平台(服务器)DS-VM21S-B系列配置指南.docx
- 2022年考博英语-华东政法大学考前拔高综合测试题2(含答案带详解)(含答案带详解).docx VIP
- 射击俱乐部商业计划书.pptx VIP
- 教师资格证初中英语简答题汇总.docx
- 中山大学2022-2023学年第1学期《高等数学(上)》期末考试试卷(A卷)附参考答案.pdf
- 高支模方案(专家论证).doc
- 数学符号及读法大全.doc VIP
文档评论(0)