5 关联规则及相关算法课件.ppt

下载文档

2
0
约5.6千字
约 10页
2019-04-02 发布于湖北
举报
版权申诉
保障服务

5 关联规则及相关算法课件.ppt

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1000个客户包含 “冻肉”和 “蔬菜罐头” 的事务包含“啤酒” 的事务 (占29.3%) 提升值越大，共同部分越大，说明前项和后项的关系越密切。精品为规则指定过滤器规则算法 (如 Apriori、CARMA 和序列) 可能会生成非常大量的规则。为了在浏览时增强明确度，或者为了简化规则评分，应该考虑过滤规则，以便更加显著地显示相关的结果和条件。使用规则浏览器“模型”选项卡上的过滤选项，可以打开一个用于指定过滤条件的对话框。精品用前面方法先打开 “Carma 模型”；要创建过滤器，请单击扩展面板右侧的编辑过滤器按钮 (漏斗图标)。这样将打开一个对话框，可指定约束条件。精品过滤后的内容如下图所示。精品关联规则模型概要关联规则模型的“概要”选项卡显示模型类型 (如 Apriori 或 CARMA)、发现的规则数量，以及规则集中规则的最大和最小支持度、提升和置信度。可以行到，共生成了11条规则。另外，在模型对话框的“汇总”标签下，可以看到关于本次建模的信息概要。精品其中“有效事务数”为 940。( 全部事务效为 1000 ) 通过对原原始数据的分析，不难发现，在 1000 个事务中，有 60 个事务所有的输入变量均为“F”也以是说有 60 个顾客什么都没有买，所以 CARMA 算法将它们过滤掉了。注意：Apriori 算法没有这个功能。精品 7. 从关联模型生成规则集 “生成规则集”命令，可以指定一个项 (目标字段) 从规则集中将那些规则后项包含了目标字段的规则全部提取出来，生成一个规则集节点。进而将这个规则集节点放入数据流中对每行记录是否含有目标字段进行段预测。首先打开的关联模型，单击“生成”菜单的“规则集”命令。打开“生成规则集”对话框。精品在Clementine中应用Apriori算法应用Apriori节点来对某超市的客户采购数据集进行购物篮分析。该数据集包含有21个属性（这些属性包括：COD、pasta、milk、water、biscuits、coffee、brioches、yoghurt、frozen vegetables、tunny、beer、tomato、souce、coke、rice、juices、crackers、oil、frozen fish、ice cream、mozzarella、tinned meat。其中“COD”是记录编号，其它20个属性代表20种商品），共46243个记录。每个属性代表某种商品，其取值为“0”或者“1”，“0”表示没有购买该商品，“1”表示购买了该商品。精品精品精品数据源精品设置“类型”节点精品设置“Apriori”节点精品 “Apriori”节点的高级选项精品浏览模型精品作业：关联规则的两个例子： /information/index.jhtml 精品四、CARMA 算法㈠ CARMA 算法原理 ? 1. 算法组成 2. 算法中的符号定义 3. 算法的基本过程㈡实例说明 ? 4. 用一个简单的例子说明算法原理。㈢ CARMA 算法描述 ? 5. 用自然语言描述算法的实现过程。精品已有的一些关联规则挖掘算法在运行之前要求用户输入最小置信度和最小支持度。而对用户来讲，确定合适的最小置信度和最小支持度比较困难，需要运行算法多次判断最小置信度和最小支持度是否过高或过低。 Christian Hidber 1999年提出了在线挖掘关联规则的算法 CARMA (Continuous Association Rule Mining Algorithm)，此算法在运行过程中给用户以反馈，用户可根据反馈信息随时调整最小支持度，如果用户对输出结果已感到满意，可随时终止算法的运行。精品所谓在线算法是相对于批处理式算法而言，有以下特点： ① 算法执行过程中即能不断产生部分计算结果，供用户参考； ② 在算法执行过程中，用户能根据产生的部分计算结果控制算法如何进行下去； ③ 算法给出的结果必须是精确的。在线挖掘关联规则的算法允许用户随时调整最小支持度(阈值)，以得出合理的结果，如果中间结果已经令人满意，用户也可以随时终止算法的执行。精品在线算法相对于离线的批处理式的算法而言，可交互性较好。CARMA 算法最多需要遍历交易集合两次，因为第二次遍历不一定需要进行完，如果满足某条件，算法可能在第二次遍历未结束时就终止。在第一次遍历过程中，算法逐步建立起一个潜在的数据项频集的集合 L，对 L 中的每一个数据项集，CARMA 计算其支持度的上界和下界。每处理一条交易之后，算法向用户输出根据当前集合 L 计算出的关联规则以及每条关联规则的支持度和置信度的上界和下界，用户可以根据输出信息调整最小支