5 关联规则及相关算法课件.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1000个客户 包含 “冻肉”和 “蔬菜罐头” 的事务 包含“啤酒” 的事务 (占29.3%) 提升值越大,共同部分越大,说明前项和后项的关系越密切。 精品 为规则指定过滤器 规则算法 (如 Apriori、CARMA 和序列) 可能会生成非常大量的规则。为了在浏览时增强明确度,或者为了简化规则评分,应该考虑过滤规则,以便更加显著地显示相关的结果和条件。 使用规则浏览器“模型”选项卡上的过滤选项,可以打开一个用于指定过滤条件的对话框。 精品 用前面方法先打开 “Carma 模型”; 要创建过滤器,请单击扩展面板右侧的编辑过滤器按钮 (漏斗图标)。这样将打开一个对话框, 可指定约束条件。 精品 过滤后的内容如下图所示。 精品 关联规则模型概要 关联规则模型的“概要”选项卡显示模型类型 (如 Apriori 或 CARMA)、发现的规则数量,以及规则集中规则的最大和最小支持度、提升和置信度。 可以行到,共生成了11条规则。另外,在模型对话框的“汇总”标签下,可以看到关于本次建模的信息概要。 精品 其中“有效事务数”为 940。( 全部事务效为 1000 ) 通过对原原始数据的分析,不难发现,在 1000 个事务中,有 60 个事务所有的输入变量均为“F”也以是说有 60 个顾客什么都没有买,所以 CARMA 算法将它们过滤掉了。 注意:Apriori 算法没有这个功能。 精品 7. 从关联模型生成规则集 “生成规则集”命令,可以指定一个项 (目标字段) 从规则集中将那些规则后项包含了目标字段的规则全部提取出来,生成一个规则集节点。进而将这个规则集节点放入数据流中对每行记录是否含有目标字段进行段预测。 首先打开的关联模型,单击“生成”菜单的“规则集”命令 。 打开“生成规则集”对话框。 精品 在Clementine中应用Apriori算法 应用Apriori节点来对某超市的客户采购数据集进行购物篮分析。该数据集包含有21个属性(这些属性包括:COD、pasta、milk、water、biscuits、coffee、brioches、yoghurt、frozen vegetables、tunny、beer、tomato、souce、coke、rice、juices、crackers、oil、frozen fish、ice cream、mozzarella、tinned meat。其中“COD”是记录编号,其它20个属性代表20种商品),共46243个记录。每个属性代表某种商品,其取值为“0”或者“1”,“0”表示没有购买该商品,“1”表示购买了该商品。 精品 精品 精品 数据源 精品 设置“类型”节点 精品 设置“Apriori”节点 精品 “Apriori”节点的高级选项 精品 浏览模型 精品 作业: 关联规则的两个例子: /information/index.jhtml 精品 四、CARMA 算法 ㈠ CARMA 算法原理 ? 1. 算法组成 2. 算法中的符号定义 3. 算法的基本过程 ㈡ 实例说明 ? 4. 用一个简单的例子说明算法原理。 ㈢ CARMA 算法描述 ? 5. 用自然语言描述算法的实现过程。 精品 已有的一些关联规则挖掘算法在运行之前要求用户输入最小置信度和最小支持度。而对用户来讲,确定合适的最小置信度和最小支持度比较困难,需要运行算法多次判断最小置信度和最小支持度是否过高或过低。 Christian Hidber 1999年提出了在线挖掘关联规则的算法 CARMA (Continuous Association Rule Mining Algorithm),此算法在运行过程中给用户以反馈,用户可根据反馈信息随时调整最小支持度,如果用户对输出结果已感到满意,可随时终止算法的运行。 精品 所谓在线算法是相对于批处理式算法而言, 有以下特点: ① 算法执行过程中即能不断产生部分计算结果,供用户参考; ② 在算法执行过程中,用户能根据产生的部分计算结果控制算法如何进行下去; ③ 算法给出的结果必须是精确的。 在线挖掘关联规则的算法允许用户随时调整最小支持度(阈值),以得出合理的结果,如果中间结果已经令人满意,用户也可以随时终止算法的执行。 精品 在线算法相对于离线的批处理式的算法而言,可交互性较好。CARMA 算法最多需要遍历交易集合两次,因为第二次遍历不一定需要进行完,如果满足某条件,算法可能在第二次遍历未结束时就终止。在第一次遍历过程中,算法逐步建立起一个潜在的数据项频集的集合 L,对 L 中的每一个数据项集,CARMA 计算其支持度的上界和下界。每处理一条交易之后,算法向用户输出根据当前集合 L 计算出的关联规则以及每条关联规则的支持度和置信度的上界和下界,用户可以根据输出信息调整最小支

文档评论(0)

liuxiaoyu92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档