第二章 关联规则挖掘.ppt

  1. 1、本文档共128页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 关联规则挖掘

第二章 关联规则挖掘 2.1 关联规则挖掘 2.2 挖掘单维布尔关联规则 2.3 挖掘多层关联规则 2.4 挖掘多维关联规则 2.1 关联规则挖掘 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。 随着大量数据不停地收集和存储,人们对于从数据库中挖掘关联规则越来越感兴趣。从大量商业事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和促销分析等。 2.1 关联规则挖掘 如何从事务DB或关系DB的大量数据中挖掘出关联规则知识? 什么样的关联规则才是最有意义的? 如何才能使挖掘过程尽快发现有价值的关联规则知识? 这就是本章要讨论的内容。 2.1 关联规则挖掘 1. 购物篮分析 购物篮分析是关联规则挖掘的最初形式。 假定作为某商店经理,你想更加了解你的顾客的购物习惯。例如:“顾客多半会在一次购物时同时购买什么商品组或集合?”,为解答这个问题,可以在商店顾客事务零售数据上运行购物篮分析。 分析的结果可用于市场规划、广告策划和分类设计。 2.1 关联规则挖掘 -购物篮分析 若设商店中所有销售商品为一个集合,则每个商品均为一个布尔变量,表示该商品是否被(一个)顾客购买。因此每个购物篮就可以用一个布尔向量表示。 分析相应布尔向量,得到反映商品频繁关联或同时购买的购买模式,并可用关联规则的形式表示模式。例如,购买计算机也趋向于同时购买财务管理软件可用以下关联规则表示: 2.1 关联规则挖掘 -购物篮分析 关联规则的支持度(support)2% 表示: 分析中的全部事务的2% 同时购买计算机和财务管理软件。 关联规则的置信度(confidence)60% 表示:购买计算机的顾客60% 也购买财务管理软件。 2.1 关联规则挖掘 2.基本概念 设 I={i1,i2,…,im} 是项的集合。 任务相关数据D:是事务(或元组)的集合。 事务T:是项的集合,且每个事务具有事务标识符TID。 项集A:是T 的一个子集,加上TID 即事务。 2.1 关联规则挖掘 -基本概念 项集:项的集合,包含k个项的项集称为k-项集。 关联规则: 每个发现的模式都应当有一个表示其有效性的确定性度量,关联规则的确定性度量为: 2.1 关联规则挖掘 -基本概念 置信度c: 置信度为100% 或1,意味着数据分析时,该规则总是对的,这种规则称为准确的。 2.1 关联规则挖掘 -基本概念 【例1 】任务相关数据由某商店计算机部购买物品的事务数组成,一个置信度为80% 的关联规则: 意味着买计算机的顾客80% 也买软件。 2.1 关联规则挖掘 -基本概念 一个模式潜在的有用性是定义其兴趣度的一个重要因素,可以用一个实用性函数(如支持度)来评估。关联规则的支持度是模式为真的任务相关数据的事务所占的百分比。 支持度s: 2.1 关联规则挖掘 -基本概念 【例2 】例1中一个支持度为30% 的关联规则,意味着计算机部的所有顾客的30%,同时购买了计算机和软件。 支持度和置信度是两个兴趣度度量,分别反映发现规则的有用性和确定性。 支持度小:规则使用面窄 置信度小:规则无意义 2.1 关联规则挖掘 -基本概念 满足最小支持度阈值和最小置信度阈值的关联规则被认为是有趣的。阈值由用户或专家设定。 强规则:同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。 为方便计,用0% 和100%之间的值表示支持度和置信度。 2.1 关联规则挖掘 -基本概念 项集的频率:即包含项集的事务数,也称为项集的支持计数(support_count)。如果项集的出现频率大于或等于min_sup与D中事务总数的乘积,就称该项集满足最小支持度min_sup 。 频繁项集:满足最小支持度的项集称为频繁项集。频繁k-项集的集合通常记作Lk。 2.1 关联规则挖掘 -基本概念 关联规则挖掘包含两个步骤: 1)找出所有频繁项集:根据定义,这些项集的频繁性至少和预定义的最小支持计数一样。 2)由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。 2.1 关联规则挖掘 3.关联规则挖掘分类 根据不同的标准,关联规则可以分成若干类型: (1)根据规则所处理的值的类型,关联规则可以分为布尔的和量化的 如果规则考虑的关联是项的在与不在,则它是布尔关联规则。例如,由购物篮分析得到的就是布尔关联规则。 2.1 关联规则挖掘 -关联规则挖掘分类 如果规则描述的是量化的项或属性之间的关联,则它是量化关联规则。在这种规则中,项或属性的量化值划分为区间。例如,下面的规则就是量

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档