- 1、本文档共73页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类方法(Clustering) 内容 1. 聚类方法原理介绍 1.1 什么是聚类 1.2 为什么聚类 1.3 聚类问题特征 1.4 主要聚类算法的分类 1.5 聚类方法的不稳定性 2. 案例分析 心肌细胞数据聚类(层次聚类,Kmeans) 中国男足近几年到底在亚洲处于几流水平?( Kmeans) 某移动公司客户细分模型 ( Kmeans ,使用SPSS) 3. 推荐参考书目 1. 聚类方法原理介绍 1.1 什么是聚类 1.2 为什么聚类 1.3 聚类问题特征 1.4 主要聚类算法的分类 1.5 聚类方法的不稳定性 1.1 什么是聚类 聚类(Clustering)就是在没有指导信息下将数据分组成为多个类(Cluster,一般也译为簇)。 最大特点:没有指导信息(无监督学习) 最大化类内相似度,最小化类间相似度 或者 最大化类间距离,最小化类内距离。 分类和聚类的区别 分类:有指导信息(训练集) 相关生活例子:教小孩认车牌 聚类:没有指导信息 相关生活例子:课程设计组队 聚类分析举例 1 “物以类聚,人以群分” 聚类分析举例 2 谁经常光顾商店,谁买什么东西,买多少? 按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别不同顾客群的购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征 指定不同的促销计划 一般没有事先设定的客户群性质类别 这正是聚类分析的目的所在 聚类分析举例 3 原标题:Kmeans聚类算法应用实例:中国男足近几年到底在亚洲处于几流水平? /leoo2sk/archive/2010/09/20/k-means.html 假设以世界杯和亚洲杯成绩作为特征,以Kmeans算法聚类,类数为3。结果收敛如下: (1)日本,韩国,伊朗,沙特 (2)乌兹别克斯坦,巴林,朝鲜 (3)中国,伊拉克,卡塔尔,阿联酋,泰国,越南,阿曼,印尼 能回答中国男足和哪些国家水平比较接近。不能回答在亚洲处于几流水平。 聚类的应用领域 经济领域: 帮助市场分析人员从客户数据库中发现不同的客户群 谁喜欢打国际长途,在什么时间,打到那里? 对住宅区进行聚类,确定自动提款机ATM的安放位置 企业信用等级分类 …… 生物医学领域 推导植物和动物的分类; 对基因分类,获得对种群的认识 癌症病人基因表达数据分析 有贡献的研究领域 数据挖掘 聚类可伸缩性、各种各种复杂形状类的识别,高维聚类等 统计学 主要集中在基于距离的聚类分析 机器学习 无指导学习(聚类不依赖预先定义的类,不等同于分类) 空间数据技术 生物学 市场营销学 1.2 为什么需要聚类 现实生活中数据太多,但是获得数据中的模式知识太少,不可能都靠人鉴别。 股票交易分析 网页文件聚类分析 社交网络团体检测(community detection in social network) …… 有些数据中的分类模糊 用户分类分析:每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的相应率。 用户习惯分析:没有明确定义习惯的方法 聚类分析在人工智能方法各阶段的作用 表征 – 计算 – 衡量 在表征阶段,聚类常用于过滤数据点和特征选择; 在计算阶段,聚类是重要应用技术; 在衡量阶段,聚类常用于在大量数据中提取参考模式。 1.3 聚类问题特征 聚类分析中“类”的特征——无监督学习 聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构可能都没有事先假定 聚类的主观性 部分指导的聚类分析 提供部分指导信息(约束聚类) 数据变量类型和距离定义 聚类的主观性 聚类方法的目的是寻找数据中: 潜在的自然分组结构 感兴趣的关系 聚类的主观性 不同情况下对自然分组结构有着不同理解 聚类的主观性 什么是自然分组结构Natural grouping ? 我们看看以下的例子: 有16张牌 如何将他们分为 一组一组的牌呢? 聚类的主观性 分成四组 每组里花色相同 组与组之间花色相异 聚类的主观性 分成四组 符号相同的牌为一组 聚类的主观性 分成两组 颜色相同的牌为一组 聚类的主观性 这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性” Similarity 因此衍生出一系列度量相似性的算法 数据变量类型 变量按测量尺度(Measurement Level)分类 名义尺度变量(Nominal) 类别变量,不可加减也不可比大小,如性别、职业等 有序尺度变量(Ordinal) 等级变量,不可加减,但可比较大小,如奖学金、名次等 间隔尺度变量(Interval) 区间变量,可以加减但不能比较倍数,如年份、经纬度等 比率尺度
文档评论(0)