第七章数据管理解读.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 1、聚类 概念: 按照对象属性的相似性将他们分为若干个组或类别的方法。 研究目的: 就是把相似的对象归并成类,研究的主要内容是如何度量相似性以及怎样构造聚类的具体方法以达到分类的目的。 研究对象: 1、对样品进行分类,即从实际问题中观测得到n个样品Xi, i=1,2,…,n,要根据某相似性原则,将这n样品进行分类; 2、是对指标进行分类,即对所考察的p个指标X=(x1, x2,…,xp)’, 根据n个观测值Xi=(xi1, xi2,…, xip)’,i=1,2,…,n,要由某相似原则将这p个指标x1, x2,…,xp进行分类。 在客户管理中应用: 帮助市场分析人员发现客户中所存在的各种特征的群体,并使用购买模式来描述各个客户群体。 2、决策树 决策树是一个类似流程图的有点像树的分析工具。从树根到枝叶,每个内部节点代表对一个属性取值的判断,相对于节点,每个分支都代表一个判断结果,或者说是一个类别。 决策树 ? 举例: 有一群人,描述这群人的属性有年龄,年收入,学历。 D C2 C1 年龄 年收入 B2 B4 B3 B1 B1 B1 B1 B1 B1 B1 B1 学历 下面以南方医院供应公司为例,看一看如何利用决策树作出合适的生产能力计划。    南方医院供应公司是一家制造医护人员的工装大褂的公司。该公司正在考虑扩大生产能力。它可以有以下几个选择:1、什么也不做;2、建一个小厂;3、建一个中型厂;4、建一个大厂。新增加的设备将生产一种新型的大褂,目前该产品的潜力或市场还是未知数。如果建一个大厂且市场较好就可实现$100,000的利润。如果市场不好则会导致$90,000的损失。但是,如果市场较好,建中型厂将会获得$40,000,市场不好则损失$5,000。当然,还有一个选择就是什么也不干。最近的市场研究表明市场好的概率是0.4,也就是说市场不好的概率是0.6。参下图: 在这些数据的基础上,能产生最大的预期货币价值(EMV)的选择就可找到。 EMV(建大厂)=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000 EMV(中型厂)=(0.4) *($ 600,000))+(0.6)* (-$10,000)=+$18,000 EMV(建小厂)=(0.4)* ($40,000)+(0.6)*(-$5,000)=+$13,000 EMV(不建厂)=$0   根据EMV标准,南方公司应该建一个中型厂。 3、关联 简单的说是在数据库和数据仓库中发现大量数据之间的有趣的相关联系。 ?关联规则的两个重要特性 1、置信度(Confidence),又称为正确率,描述关联规则的可靠程度。具体而言,规则X?Y在交易集中的置信度是指包含X和Y的交易次数与包含X的交易次数之比,记作confidence(X?Y)。 2、支持度(Support),又称覆盖率,描述关联规则的适用范围。具体而言,规则X?Y在交易集中的支持度是指交易集中同时包含X和Y的交易次数与所有交易次数之比,记作support(X?Y)。 举例: 记录号 购物清单 1 2 3 4 5 啤酒、尿布、婴儿爽身粉、面包、雨伞 尿布、婴儿爽身粉 啤酒、尿布、牛奶 啤酒、尿布、洗衣粉 啤酒、牛奶、可乐 上表中,共发生交易5次,即T1, T2, T3 ,T4 , T5 交易中的商品设为项,即啤酒为X1,尿布为X2,婴儿爽身粉为X3,面包为X4,牛奶为X5,洗衣粉为X6,可乐为X7。 问题: 超市经理想知道商品之间的关联,要求列出哪些同时购买的,且支持度≥0.4 的商品名称。 单项统计结果 单项统计 支持度 啤酒 尿布 婴儿爽身粉 牛奶 0.8 0.8 0.4 0.4 双项统计 支持度 啤酒,尿布 啤酒,牛奶 尿布,婴儿爽身粉 0.6 0.4 0.4 双项统计结果 得出如下规则: R1:啤酒?尿布,S=0.6,C=0.6/0.8=0.75 R2:尿布?啤酒,S=0.6,C=0.6/0.8=0.75 R3:牛奶?啤酒,S=0.4,C=0.4/0.4=1 R4:啤酒?牛奶,S=0.4,C=0.4/0.8=0.5 R5:尿布?婴儿爽身粉,S=0.4,C=0.4/0.8=0.5 R6:婴儿爽身粉?尿布,S=0.4,C=0.4/0.4=1 关联规则的支持度与置信度的实际意义 置信度低 置信度高 支持度低 关联规则很少正确,而且很少被使用 关联规则在多数情况下是正确的,但是很少被使用 支

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档