ch03聚类分析应用.ppt

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ch03聚类分析应用

第三章 聚类分析在区域经济中应用 聚类分析方法 SPSS的聚类分析过程 系统聚类法总结 案例分析-重庆市区市县经济分类 第一节 聚类分析方法 3.1.1 聚类分析概述 聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。 基本思想是根据事物本身的特性研究个体分类的方法;聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 第一节 聚类分析方法 基本程序:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。 具体进行聚类时,由于目的、要求不同,因而产生各种不同的聚类方法: 按样本聚类(Q)、按指标聚类(R) 静态聚类法、动态聚类法 层次聚类法、迭代聚类法、快速聚类法(K均值聚类) 3.1.2 原始数据处理方法 数据量纲不同将影响聚类 分析的结果,处理方法是对 其进行无量纲化处理。 所谓无量纲化处理,是将 原始数据中每个元素按照某 种特定的运算把它变成一个 新值,且是数值的变化不依赖于原始数据中其它数据的新值。 对于间距尺度、有序尺度和名义尺度数据其处理方法不 同,一般情况下,用于聚类分析的变量多为间距尺度。 3.1.2 原始数据处理方法 有序尺度数据的无量纲化 对于有序尺度,可以采用数值编码的方式将其转换为间距型。 如:优、良、中、及格、不及格 5 4 3 2 1 小学、初中、高中、大专、本科以上 6 9 12 15 16 3.1.2 原始数据处理方法 间距型数据无量级化(消除单位不同和数量级的影响) 考虑:部分成绩用5分值,部分成绩用100分值,比较不同学生差异会出现什么情况? 聚类结果将受到数据量级较大的变量的影响,而数据量级较小的变量基本不能发挥作用。 3.1.2 原始数据处理方法 1、标准化变换 2、极差正规化(规格化变换、阈值法) 3、功效系数法 4、相对化变换 3.1.3 相似性测度 即是把相似的样本分在一起,测量相似性的方法称为相似性测度,可以从距离和相关性来分析。 概述: 设有n个样本单位,每个样本测得p项指标(变量),原始资料阵为: 3.1.3 相似性测度 距离测度 把n个样本点看成p维空间的n个点 1、明考斯基距离 (1)绝对距离(Block距离) (2)欧氏距离(Euclidean distance) 3.1.3 相似性测度 (3)切比雪夫距离(Chebychev) 2、兰氏距离 消除量纲影响,但没有考虑相关性。 3.1.3 相似性测度 3、马氏距离 两点之间的马氏距离 3.1.3 相似性测度 前述距离都针对间隔尺度,对于有序或名义尺度只能采用另外的方法。 如对语言相似性进行分析,可以采用首音节的相似性作为不比较基础。 3.1.3 相似性测度 对于变量的聚类,一般不能进行距离分析,只能采用相似性度量。 对两个指标之间的相似程度用相似系数来刻划,相似系数的绝对值越接近于1,表示指标间的关系越密切,绝对值越接近于0,表示指标间的关系越疏远。 3.1.3 相似性测度 1、夹角余弦 2、相关系数 3、同号率 3.1.4 类与类的距离 类的含义 类通常用G表示,其中包含k个元素,用i,j表示。 给定一值T,类中任意元素距离小于等于T。 类间距离---八种测量方法 最短距离法、最长距离法、中间距离法 重心距离法、类平均法、可变类平均法 可变法、Ward离差平方和 3.1.5 层次(系统)聚类法 系统聚类法(层次聚类法): 在聚类分析的开始,每个样本自成一类; 然后 ,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类; 接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类; 再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。 步骤: 1、对数据进行变换处理,消除量纲 2、构造n个类,每个类只包含一个样本计算 3、计算n个样本两两间的距离{dij} 4、合并距离最近的两类为一新类 5、计算新类与当前各类的距离,重复(4) 6、画聚类图 7、决定类的个数和类 第四节 系统聚类法 SPSS采

文档评论(0)

jgx3536 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档