大数据挖掘导论与案例课件:关联分析概念与方法.pptx

大数据挖掘导论与案例课件:关联分析概念与方法.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共106页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

关联分析概念与方法大数据挖掘导论与案例

学习目标/Target掌握Apriori算法挖掘关联规则的基本步骤,,了解Apriori算法的优缺点,了解提升算法效率的方法。理解FP树挖掘频繁项集的原理,熟悉挖掘频繁项集的其他方法。了解关联模式评估的指标,熟悉各指标的应用场景。掌握关联分析的基本概念,理解频繁项集和关联规则的内容,掌握先验原理。

引言/Introduction关联分析(associationanalysis)从大量数据中发现项集之间有趣的联系,被用于发现隐藏在大型数据集中的有意义的关联。通常将所发现的联系表示为关联规则(associationrule)或频繁项集(frequentitemset)。

目录/Contents01基本概念02关联分析的方法03关联模式评估

基本概念6.1

6.1.1购物篮分析关联分析的目的是发现被顾客放入购物篮中的不同商品之间的联系,从而分析顾客的购买习惯,了解哪些商品经常被顾客连带购买,为制定方便顾客选取的货架摆放方案和合理的营销策略提供依据,也被称为购物篮分析。完整的购物篮数据至少包含两方面的信息:一方面是顾客的购买行为序号,一个顾客可能会发生多次购买行为,每次购买行为均被记录下来,这个序号也就是超市或者商店的交易流水号;另一方面是顾客在每次购物过程中交易的商品列表,此处商品列表只涉及顾客购买的不同商品的名称。

6.1.1购物篮分析购物篮数据涉及关联分析的两个基本术语:事务(transaction)和项集(itemset)。事务是关联分析的研究对象,一个事务包含一个唯一标识TID和对应顾客购买的商品的集合。项目(item)是事务中的单个对象。一次交易中的商品通常是若干个项目的集合,叫作项集。购物篮分析的目的是找到所有购物篮中不同商品之间的关联关系,从而了解哪些商品频繁地被顾客同时购买,帮助零售商制定合理的营销策略。

6.1.1购物篮分析在对购物篮数据进行关联分析时,需要处理两个关键问题:第一,计算复杂度问题。从大型事务数据集中发现有意义的规则在计算上要付出很高的代价;第二,规则的筛选问题。所发现的某些规则可能是虚假的或不令人感兴趣的,因为它们可能是偶然发生的或者是已经被研究者所熟知的。除了购物篮分析外,关联分析也被应用于公共管理、生物信息学、医疗诊断、网页挖掘和推荐系统等领域。例如,关联分析可以帮助公安机关从已有的案件中找到各属性之间的隐含关系,发现其中的犯罪行为规律,为新案件的侦破提供线索;在移动通信行业,关联分析可以帮助运营商发现不同业务之间的关联关系,从而推进新业务的发展;关联分析也可以用来分析保险行业的客户数据,找到各险种可能被购买的人群特征,进而进行精准营销。

6.1.2频繁项集和关联规则?

6.1.2频繁项集和关联规则?

6.1.2频繁项集和关联规则?

6.1.2频繁项集和关联规则实际应用中的关联规则有许多类型,可以根据不同的标准对关联规则进行分类。根据处理的数据类型,关联规则可以分为布尔关联规则和量化关联规则。布尔型关联规则是指处理的数据类型都是离散属性或分类属性,量化关联规则则是指处理的数据类型包含连续属性。根据处理的数据维度,关联规则可以分为单维关联规则和多维关联规则。单维关联规则通常从事务数据中挖掘,涉及到数据的只有一个维度,处理的是单个维内的关系。根据数据的抽象层次,关联规则可以分为单层关联规则和多层关联规则。在单层关联规则中,没有考虑现实数据的多层次性。多层关联规则是指在规则挖掘中,对数据的多层性进行了充分考虑。

关联分析的方法6.2

?6.2关联分析的方法

6.2.1先验原理?

6.2.1先验原理即,一旦发现一个非频繁项集,那么包含该项集的所有超集都可以被剪枝,这样的方法被称为基于支持度的剪枝(support-basedpruning)。基于支持度的剪枝依赖于支持度度量的性质,即一个项集的支持度决不会超过它的子集的支持度,这个性质也被称为支持度度量的反单调性(anti-monotone)。任何具有反单调性的度量都能够直接结合到挖掘算法中,对候选项集的指数有哪些信誉好的足球投注网站空间有效地进行剪枝,以降低生成频繁项集的计算代价。

6.2.2Apriori算法产生频繁项集Apriori算法是关联规则挖掘的经典算法,它开创性地使用了基于支持度的剪枝技术来控制候选项集的指数增长。此处以下表所示的事务数据集为例,展示Apriori算法挖掘频繁项集产生强关联规则的基本过程。TID商品集合1牛奶,鸡蛋,面包,薯片2鸡蛋,爆米花,薯片,啤酒3鸡蛋,面包,薯片4牛奶,鸡蛋,面包,爆米花,薯片,啤酒5牛奶,面包,啤酒6鸡蛋,面包,啤酒7牛奶,面包,薯片8牛奶,鸡蛋,面包,黄油,薯片9牛奶,鸡蛋,黄油,薯片

6.2.2Aprio

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档