第5章 聚类分析ppt课件.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 聚类分析ppt课件

第5章 聚类分析 什么是聚类 聚类(Clustering)就是将数据分组成为多个类(Cluster或译为簇)。 在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。 从机器学习的角度讲,簇相当于隐藏模式。聚类是有哪些信誉好的足球投注网站簇的无监督学习过程。 与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。 什么是聚类 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物 将周围的人分为家人和非家人 聚类分析无处不在 谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样) 什么情况下需要聚类 为什么这样分类? 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的响应率。 聚类分析无处不在 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低! 聚类分析无处不在 谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以…… 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 手机套餐的制定 聚类的应用领域 经济领域: 帮助分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 …… 生物学领域 推导植物和动物的分类(门、纲、目、科、属、种); 对基因分类,获得对种群的认识 数据挖掘领域 作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究 聚类分析原理介绍 聚类分析中“类”的特征: 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 簇(类)的概念可能是模糊的 聚类分析原理介绍 我们看以下的例子: 有16张牌 如何将他们分为 一组一组的牌呢? 聚类分析原理介绍 分成四组 每组里花色相同 组与组之间花色相异 聚类分析原理介绍 分成四组 符号相同的牌为一组 聚类分析原理介绍 分成两组 颜色相同的牌为一组 聚类分析原理介绍 分成两组 大小程度相近的牌分到一组 聚类分析原理介绍 这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性” (Similar) 因此衍生出一系列度量相似性的方法 聚类分析原理介绍 变量按测量尺度(Measurement Level)分类 区间(Interval)值变量 连续变量,如长度、重量、速度、温度等 有序(Ordinal)值变量 等级变量,不可加,但可比,如一等、二等、三等奖学金 名词性(Nominal)变量 类别变量,不可加也不可比,如性别、职业等 下面介绍对各种不同类型的变量如何进行度量 度量对象间的相似与差异 对象间的相似度或相异度通常基于每对对象间的距离的计算 欧几里得距离 Minkowski距离 度量对象间的相似与差异 曼哈顿距离(Block距离) 欧几里得距离是当q=2时的Minkowski距离的特例 曼哈顿距离是当q=1时的Minkowski距离的特例 当q=?时得到无穷距离(无穷范数),由向量间各分量的最大差决定 度量对象间的相似与差异 距离所应满足的数学性质 d(i,j) ? 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) ? d(i,k) + d(k,j) 除此之外,还可以使用加权的距离 二元属性变量 二元变量只有两种状态:0或1 例如给定描述患者的变量smoker,1表示患者抽烟,0表示不抽烟 像处理一般数值量一样来处理二元变量会产生误导的聚类结果 二元属性变量的相依表 如果所有的二元变量具有相同的权重,则可以得到上表所示的两行两列的相依表 q是对象i和j值都为1的变量的数目 r是在对象i值为1,但对象j值为0的变量数目 …… 变量的总数是p=q+r+s+t 对称二元变量和非对称二元变量 对二元变量的相异度计算还要考虑变量的对称性 对称二元变量 如果他的两个状态具有同等价值和相等的权重 输出用0或1编码没有优先权,如性别 对称二元相异度 对称二元变量和非对称二元变量 非对称二元变

文档评论(0)

118zhuanqian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档