复旦大学精品课程《商务智能》课件,数据挖掘技术件复习精品资料.ppt

复旦大学精品课程《商务智能》课件,数据挖掘技术件复习精品资料.ppt

  1. 1、本文档共183页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* Business implication examples: Where to place items in a store to maximize sales or to increase customer satisfaction, what items to market to someone who recently bought items shown as associated. * 在进行关联规则挖掘时,若把超市所有销售的商品作为一个集合,每个商品均用一个布尔值描述是否被购买,那么每个顾客购物清单就可以用一个布尔向量表示,分析相应布尔向量就可得到哪些商品在一起购买的购物模式。除上面表示方法外,事务数据集也可表示成矩阵的形式D=(dij)n?m,此矩阵的行表示事务,列表示项目,dij=1或0,表示某事务包含或不包含某项目。这种方式比较容易计算项目或项集的支持度,但会导致稀疏性矩阵。 * It further identifies the strength of the discovered association by calculating a confidence number and calculates the support of the rule to define how frequently this association appears in the data . The higher the support and the confidence, the more important the rule might be. * * Apriori 算法的基本思想是先找出所有的频繁项集,然后由频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度。 Apriori算法是用k–1频繁项集生成候选的k频繁项集,但候选频繁项集通常是很大的,例如在购物篮分析中,m个项目组成的项集可能产生2m-1个侯选频繁项集以及3m-2m+1+1个关联规则。但一般情况下,这些规则大部分不满足强关联规则的条件,这个问题成为关联规则挖掘的瓶颈。因此减少候选项集的大小,然后再扫描事务数据库,计算候选项集的支持度是必要的。如果最长的频繁项集是n的话,那么需要 n +1次事务数据库扫描。因此如何高效地找出频繁项集是关联规则挖掘的关键问题。 * 上图是{i1, i2, i3, i4}的项集格(lattice),这种结构能枚举所有可能的项集。假设{i2, i3, i4}是频繁项集,那么它的所有子集{i2},{i3},{i4},{i2, i3},{i2,i4}和{i3, i4}都是频繁的。反之,如{i1, i2}是非频繁的,它的所有超集{i1, i2, i3},{i1, i2, i4}和{i1, i2, i3, i4}都是非频繁的。 * 由前k-2项相同的一对k-1频繁项集Lk-1连接生成侯选k频繁项集Ik。其中k=1,2,…, n+1,这里假设由Apriori算法得到的频繁项集的长度最大值为n。这种方法可保证侯选频繁项集的完全性(不遗漏),又可避免重复地产生侯选频繁项集。 * 为简便起见,假设超市有5件商品,某日营业中产生10条购物记录 假设最小支持数为2,最小置信度为80% * 把顾客的交易数据整理成事务数据库的形式,设置好最小支持度和置信度后就可以挖掘关联模型。创建模型后,使用 IBM DB2 Intelligent Miner Visualization进行展示和评估。如上图所示。 * 这里应用ID3算法,对大量的犯罪行为记录进行分析,帮助公安机关发现犯罪的规律,了解不同犯罪行为之间的关联以及何种状态会诱发何种犯罪行为等。 为便于讨论,这里选取了少量样本数据,如上表所示,其中仅包含了登记在案的违法犯罪人员的部分内容,构造出的决策树比较简单直观。在实际应用中,用于分析的样本数越多越好,得出的决策树更具价值。 * 上表实例的类别属性为犯罪程度,分为严重和较轻两类。在条件属性中,犯罪记录次数是整数型数值,可以“离散化” 为三个区间0,[1-3],3(读者思考:根据前面离散化方法如何获取较优离散化?对决策树的挖掘结果有什么影响)。采用ID3算法构造决策树。可把上表中的训练样本集分为两类:犯罪程度严重、较轻,所以有两个不同的类(m=2)。设类C1对应于严重类别,有10个样本;类C2对应于较轻类别,有7个样本。利用上述公式,可以得出该样本的期望信息:。 计算各属性的熵,以有无固定职业属性为例可以得到: 1.有固定职业:s11 =3,s21=4,I(s11,s21)= 0.985 2.无固定职业:s12=7,s22=3,I(s12,s22)= 0.881 则E(有无固定职业)= = 0.924 Gain(有无固定职

文档评论(0)

三哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档