- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.第四章_关联规则讲解
例3: * 3、Apriori算法的实现过程 * * 4、由频繁项集产生关联规则 一旦找出频繁项集,再通过最小置信度产生关联规则。 关联规则的产生步骤如下: 对于每个频繁项集l,产生l的所有非空子集。 对于l的每个非空子集s,如果 则输出规则“s→(l-s)”。 * * 以例3为例,看其中一个频繁项集l={I1,I2,I5},可以由l产生哪些关联规则?l的非空子集有{I1,I2}{I1,I5}{I2,I5}{I1}{I2}{I5}。结果关联规则如下,每个都列出了置信度。 如果最小置信度阀值为70%,则只有第2、3和最后一个规则可以输出。 * * 真正可取的规则具备的条件 * 并非所有的规则在符合阀值限制后都是有意义的,这样的规则还分为: 有用的规则:包含高品质的有效情报 常识 无法解释的结果 关联规则真正可取的是具备以下两个条件的规则 : 人们常识之外、意料之外的关联 该规则必须具有潜在的作用 * 5、案例 * * * * * Apriori算法的核心: 用频繁的(k– 1)-项集生成候选的频繁k-项集 用数据库扫描和模式匹配计算候选集的支持度 Apriori的瓶颈:候选集生成 巨大的候选集: 104个频繁1-项集要生成107个候选2-项集 要找尺寸为100的频繁模式,如{a1,a2, …,a100},你必须先产生2100?1030个候选集 多次扫描数据库: 如果最长的模式是n的话,则需要(n+1)次数据库扫描 (三)Apriori够快了吗? —性能瓶颈 * (四)负关联规则挖掘 * * 正确吗? 结 束 * * * * * * * * * * * * * * * * 第四章 关联规则 * 一、关联规则的定义 * 关联规则一般用以发现事务数据库中不同商品(项)之间的联系,用这些规则找出顾客的购买行为模式。 这种规则可以应用于超市商品货架设计、货物摆放以及根据购买模式对用户进行分类 。 * * 二、关联规则:基本概念 (一)支持度与置信度 A A∩B B 买尿布的客户 二者都买的客户 买啤酒的 客户 * 置信度confidence(.):是指购物篮分析中有了左边商品,同时又有右边商品的交易次数百分比,也就是说在所有的购买了左边商品的交易中,同时又购买了右边商品的交易概率。 * 1、置信度 * 2、支持度 支持度sup(.):表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比,即支持这个规则的交易的次数百分比 。 * * 例: * 对于规则A? C support = support({A, C}) = 50% confidence = support({A, C})/support({A}) = 66.6% * 交易项目 成交次数 夹克,球鞋 300 滑雪衫,球鞋 100 夹克,滑雪衫,球鞋 100 球鞋 50 慢跑鞋 40 夹克,慢跑鞋 100 滑雪衫,慢跑鞋 200 衬衣 10 夹克 40 滑雪衫 60 合计 1000 * 表1 运动鞋Y1 单独 购买 合计 球鞋Y11 慢跑鞋Y12 上衣X 衬衣X1 10 10 外套X2 夹克X21 400 100 40 540 滑雪衫X22 200 200 60 460 单独购买 50 40 合 计 650 340 1000 * 表2 规则“夹克→球鞋”的计算 * * 运动鞋Y1 单独 购买 合计 球鞋Y11 慢跑鞋Y12 上衣X 衬衣X1 10 10 外套X2 夹克X21 1 0 0 1 滑雪衫X22 1 898 0 899 单独购买 0 90 0 90 合 计 2 988 10 1000 * 表3 存在的问题: * 1.高置信度,低支持度: 夹克?球鞋”的置信度高达100%,但因为只有一人买了球鞋,这条关联规则支持度只有千分之一。 2.支持度、置信度都比较高,但几乎是没有作用的规则。 “买方便面则买牛奶”,“买牙刷则买牛奶”,“喜欢野外休闲则会买牛奶”。 * * 1、关联规则的分类 二、关联规则的分类与作用 * 布尔型关联规则与数值型关联规则 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系; 数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。 * * 如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则;反之,为多维关联规则。 如,计算机→财务软件; 年龄30~39岁、月收入4000元以上→高清电视 如果在给定的规则集中,规则不涉及不同抽象层的项或属性,就称单层关联规则;反之,称多层。 * * 2、关联规则的作用 * 购物篮分析:关联规则就是要找出哪些产
您可能关注的文档
最近下载
- 期末考试—服务方案策划与评估形考任务二.docx VIP
- 班组劳务分包合作协议.doc VIP
- [山西]2024年山西医科大学第二医院招聘42人笔试历年典型考题及解题思路分析附带答案详解.docx VIP
- 《22G101三维彩色立体图集》.pdf VIP
- 游泳池设计规范.docx
- 【会写生字250字】部编人教版二年级上册语文生字表笔顺练习可打印.doc
- 《JTT695-2007-混凝土桥梁结构表面涂层防腐技术条件》.pdf
- 人教小学生必背古诗75首(带拼音打印版).pdf VIP
- 牛津指导写作的系列oxford-discover-2-Writing-and-Spelling.pdf
- A3微能力点优秀案例汇编.docx VIP
文档评论(0)