复旦大学精品课程《商务智能》课件,数据挖掘技术件复习精品资料.ppt

下载文档 降价啦

16
0
约5.77万字
约 183页
2016-04-08 发布于湖北
举报
版权申诉
保障服务

复旦大学精品课程《商务智能》课件,数据挖掘技术件复习精品资料.ppt

1、本文档共183页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* Business implication examples: Where to place items in a store to maximize sales or to increase customer satisfaction, what items to market to someone who recently bought items shown as associated. * 在进行关联规则挖掘时，若把超市所有销售的商品作为一个集合，每个商品均用一个布尔值描述是否被购买，那么每个顾客购物清单就可以用一个布尔向量表示，分析相应布尔向量就可得到哪些商品在一起购买的购物模式。除上面表示方法外，事务数据集也可表示成矩阵的形式D=(dij)n?m，此矩阵的行表示事务，列表示项目，dij=1或0，表示某事务包含或不包含某项目。这种方式比较容易计算项目或项集的支持度，但会导致稀疏性矩阵。 * It further identifies the strength of the discovered association by calculating a confidence number and calculates the support of the rule to define how frequently this association appears in the data . The higher the support and the confidence, the more important the rule might be. * * Apriori 算法的基本思想是先找出所有的频繁项集，然后由频繁项集产生强关联规则，这些规则必须满足最小支持度和最小置信度。 Apriori算法是用k–1频繁项集生成候选的k频繁项集，但候选频繁项集通常是很大的，例如在购物篮分析中，m个项目组成的项集可能产生2m-1个侯选频繁项集以及3m-2m+1+1个关联规则。但一般情况下，这些规则大部分不满足强关联规则的条件，这个问题成为关联规则挖掘的瓶颈。因此减少候选项集的大小，然后再扫描事务数据库，计算候选项集的支持度是必要的。如果最长的频繁项集是n的话，那么需要 n +1次事务数据库扫描。因此如何高效地找出频繁项集是关联规则挖掘的关键问题。 * 上图是{i1, i2, i3, i4}的项集格（lattice），这种结构能枚举所有可能的项集。假设{i2, i3, i4}是频繁项集，那么它的所有子集{i2}，{i3}，{i4}，{i2, i3}，{i2,i4}和{i3, i4}都是频繁的。反之，如{i1, i2}是非频繁的，它的所有超集{i1, i2, i3}，{i1, i2, i4}和{i1, i2, i3, i4}都是非频繁的。 * 由前k-2项相同的一对k-1频繁项集Lk-1连接生成侯选k频繁项集Ik。其中k=1,2,…, n+1，这里假设由Apriori算法得到的频繁项集的长度最大值为n。这种方法可保证侯选频繁项集的完全性（不遗漏），又可避免重复地产生侯选频繁项集。 * 为简便起见，假设超市有5件商品，某日营业中产生10条购物记录假设最小支持数为2，最小置信度为80% * 把顾客的交易数据整理成事务数据库的形式，设置好最小支持度和置信度后就可以挖掘关联模型。创建模型后，使用 IBM DB2 Intelligent Miner Visualization进行展示和评估。如上图所示。 * 这里应用ID3算法，对大量的犯罪行为记录进行分析，帮助公安机关发现犯罪的规律，了解不同犯罪行为之间的关联以及何种状态会诱发何种犯罪行为等。为便于讨论，这里选取了少量样本数据，如上表所示，其中仅包含了登记在案的违法犯罪人员的部分内容，构造出的决策树比较简单直观。在实际应用中，用于分析的样本数越多越好，得出的决策树更具价值。 * 上表实例的类别属性为犯罪程度，分为严重和较轻两类。在条件属性中，犯罪记录次数是整数型数值，可以“离散化” 为三个区间0，[1-3]，3（读者思考：根据前面离散化方法如何获取较优离散化？对决策树的挖掘结果有什么影响）。采用ID3算法构造决策树。可把上表中的训练样本集分为两类：犯罪程度严重、较轻，所以有两个不同的类（m=2）。设类C1对应于严重类别，有10个样本；类C2对应于较轻类别，有7个样本。利用上述公式，可以得出该样本的期望信息：。计算各属性的熵，以有无固定职业属性为例可以得到： 1.有固定职业：s11 =3，s21=4，I（s11，s21）= 0.985 2.无固定职业：s12=7，s22=3，I（s12，s22）= 0.881 则E（有无固定职业）= = 0.924 Gain（有无固定职