- 1、本文档共60页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
七聚类分析
第七讲 聚类分析 聚类分析概述 距离与相似系数 系统聚类分析方法 系统聚类分析应用举例 第一节 聚类分析概述 多元统计分析中的分类方法 聚类分析的涵义 聚类分析方法 多元统计分析中的分类方法 一类: 研究对象存在事先分类情况下,判断某个未知样品的归类 一类: 研究对象不存在事先分类情况下,进行数据结构的分类 聚类分析的涵义 是一种将样品或变量,按照它们在性质上的亲疏程度进行分类的多元统计分析方法。 描述亲疏程度的途径: 计算多维空间上点的距离; 计算相似系数或相关系数 聚类分析方法 按照聚类方法的不同 系统聚类分析法 动态聚类分析法 模糊聚类分析法 图论聚类分析法 聚类预报法 按照分类对象划分 系统聚类分析法 是在样品距离的基础上定义类与类的距离,首先将个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品并类过程图称为聚类谱系图。 动态聚类分析法 模糊聚类分析法 利用模糊集理论来处理分类问题的聚类方法 图论聚类分析法 利用图论中最小支撑树的概念来处理分类问题的聚类方法 聚类预报法 利用聚类分析来处理预报问题的方法。可以弥补回归分析和判别分析的不足。 聚类分析方法 Q型聚类分析法 R型聚类分析法 Q型聚类分析法 特征:对样品进行的分类处理。 作用: ①能够综合利用多个变量对样品进行分类; ②分类结果直观,聚类谱系图清晰; ③聚类结果细致、全面、合理。 R型聚类分析法 第二节 距离与相似系数 变量类型 数据变换处理 距离 相似系数 距离以及相似系数的选择原则 变量类型 名义特性:变量值是用一些类来表示的,类与类之间没有等级关系,如性别,职业等; 顺序特性:变量值是用有序等级来表示的。如优秀、良好、中、及格、不及格等; 数值特性:变量值是用连续的量来度量的。如长度、重量、压力等。 对于不同类型的变量在定义距离相似测度时有很大的差异。这里主要研究的是具有数值特性的变量的聚类分析方法。 数据变换处理 原因:实际应用所使用的样本资料中,由于不同的变量具有不同的计量单位(或量纲),并且具有不同的数量级,为了使具有不同计量单位和数量级的数据能够放在一起进行比较分析,通常都要对数据进行变换处理。 涵义:所谓数据变换,就是将原始数据矩阵中的各个变量值,按照某种特定的运算把它变换成为一个新值,而且数值的变换不依赖于原始数据中其他变量的新值。 方法: 中心化变换 规格化变换(极差正规化) 标准化变换 对数变换 其他方法 中心化变换方法 规格化变换(极差正规化) 标准化变换 对数变换 其他方法 极差标准化。把每个变量的样本极差皆化为1。 立方根变换。把非线性数据结构变为线性结构。 平方根变换。把非线性数据结构变为线性结构。 距离 距离的条件 常用距离 1、明氏距离 2、欧氏距离 3、绝对值距离 4、切比雪夫距离 5、兰氏距离 以上距离一个共同的特点是,均没有考虑相关性。 6、马氏距离 7、其他距离 距离的条件 明氏距离(明科夫斯基) 欧氏距离 绝对值距离 切比雪夫距离 兰氏距离 马氏距离 其他距离 斜交空间距离 链距离 相似系数 相似系数的定义 常用相似系数 夹角余弦 相关系数 指数相似系数 非参数方法 相似系数的定义 夹角余弦 相关系数 指数相似系数 非参数方法 距离以及相似系数的选择原则 对于同一数据资料,进行聚类分析时,选择的不同的距离公式或者不同的相似系数,聚类结果是不一样的。因为不同的距离公式或者不同的相似系数所反映的样品或指标的亲疏程度的意义是不同,因此,在运用中应该根据不同的实际情况,选择不同距离或相似系数。 实际意义原则 数据性质原则 实际意义原则 即所选择的距离或者相似系数应该具有明确的实际意义。比如经济指标之间的相关应该是具有现实的经济联系的。 数据性质原则 根据原始数据的各自特点,选择不同的数据变换,再根据不同的数据变换选择不同的距离或者相似系数。 1、若数据进行了标准化,则相关系数与夹角余弦是一致。 2、若聚类分析前已经对变量的相关性作了处理,则通常采用欧氏距离,而不必选用斜交空间距离。 3、所选距离应与所选聚类分析方法一致 (1)若聚类方法为离差平方和法时,距离只能选用欧氏距离; (2)工作量大小原则。斜交空间距离的计算量一般很大。 总之,在一般情况下,有以下的经验可以借鉴。相关系数的稳定性要强于相似系数,而分辨力却弱于相似系
您可能关注的文档
- 《热力学定律能量守恒定律》课件.ppt
- 《离散数学》些特殊的图.ppt
- 《等差数列》课件张ppt人教a版必修.ppt
- 《离散数学》图的基本概念.ppt
- 《概率论》条件概率.ppt
- 《水力学》七水跃.ppt
- 《自动控制原理》根轨迹法.ppt
- 《自动控制原理》传递函数.ppt
- 《维设计》新课标高考物理轮总复习课件单元功能关系能量守恒定律张ppt.ppt
- 《计算机网络——自顶向下方法与internet特色》幻灯片lecture.ppt
- 产品管理精髓.pptx
- 文明祭祀满分作文400字大全六篇2024 .pdf
- DB2308T 216—2024佳木斯市农作物品种试验玉米调查及操作规范.docx
- DB37T 4778—2024《城市轨道交通联络通道冻结法技术规范》.pdf
- 《供热工程用预制保温层球墨铸铁热力管道技术规程》.pdf
- DB2308T 220—2024陆基圆池 池塘循环水养殖技术规程.docx
- 重大活动食品安全保障服务规范(DB3212T 1173—2024).docx
- DB37T 4772—2024《公路工程废旧混凝土再生集料混凝土应用技术规程》.pdf
- 《地理标志保护产品 米易枇杷种植技术规范DB5104T 21—2024》.docx
- 《民宿消防安全管理规范》.pdf
文档评论(0)