- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
七聚类分析
第七讲 聚类分析 聚类分析概述 距离与相似系数 系统聚类分析方法 系统聚类分析应用举例 第一节 聚类分析概述 多元统计分析中的分类方法 聚类分析的涵义 聚类分析方法 多元统计分析中的分类方法 一类: 研究对象存在事先分类情况下,判断某个未知样品的归类 一类: 研究对象不存在事先分类情况下,进行数据结构的分类 聚类分析的涵义 是一种将样品或变量,按照它们在性质上的亲疏程度进行分类的多元统计分析方法。 描述亲疏程度的途径: 计算多维空间上点的距离; 计算相似系数或相关系数 聚类分析方法 按照聚类方法的不同 系统聚类分析法 动态聚类分析法 模糊聚类分析法 图论聚类分析法 聚类预报法 按照分类对象划分 系统聚类分析法 是在样品距离的基础上定义类与类的距离,首先将个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品并类过程图称为聚类谱系图。 动态聚类分析法 模糊聚类分析法 利用模糊集理论来处理分类问题的聚类方法 图论聚类分析法 利用图论中最小支撑树的概念来处理分类问题的聚类方法 聚类预报法 利用聚类分析来处理预报问题的方法。可以弥补回归分析和判别分析的不足。 聚类分析方法 Q型聚类分析法 R型聚类分析法 Q型聚类分析法 特征:对样品进行的分类处理。 作用: ①能够综合利用多个变量对样品进行分类; ②分类结果直观,聚类谱系图清晰; ③聚类结果细致、全面、合理。 R型聚类分析法 第二节 距离与相似系数 变量类型 数据变换处理 距离 相似系数 距离以及相似系数的选择原则 变量类型 名义特性:变量值是用一些类来表示的,类与类之间没有等级关系,如性别,职业等; 顺序特性:变量值是用有序等级来表示的。如优秀、良好、中、及格、不及格等; 数值特性:变量值是用连续的量来度量的。如长度、重量、压力等。 对于不同类型的变量在定义距离相似测度时有很大的差异。这里主要研究的是具有数值特性的变量的聚类分析方法。 数据变换处理 原因:实际应用所使用的样本资料中,由于不同的变量具有不同的计量单位(或量纲),并且具有不同的数量级,为了使具有不同计量单位和数量级的数据能够放在一起进行比较分析,通常都要对数据进行变换处理。 涵义:所谓数据变换,就是将原始数据矩阵中的各个变量值,按照某种特定的运算把它变换成为一个新值,而且数值的变换不依赖于原始数据中其他变量的新值。 方法: 中心化变换 规格化变换(极差正规化) 标准化变换 对数变换 其他方法 中心化变换方法 规格化变换(极差正规化) 标准化变换 对数变换 其他方法 极差标准化。把每个变量的样本极差皆化为1。 立方根变换。把非线性数据结构变为线性结构。 平方根变换。把非线性数据结构变为线性结构。 距离 距离的条件 常用距离 1、明氏距离 2、欧氏距离 3、绝对值距离 4、切比雪夫距离 5、兰氏距离 以上距离一个共同的特点是,均没有考虑相关性。 6、马氏距离 7、其他距离 距离的条件 明氏距离(明科夫斯基) 欧氏距离 绝对值距离 切比雪夫距离 兰氏距离 马氏距离 其他距离 斜交空间距离 链距离 相似系数 相似系数的定义 常用相似系数 夹角余弦 相关系数 指数相似系数 非参数方法 相似系数的定义 夹角余弦 相关系数 指数相似系数 非参数方法 距离以及相似系数的选择原则 对于同一数据资料,进行聚类分析时,选择的不同的距离公式或者不同的相似系数,聚类结果是不一样的。因为不同的距离公式或者不同的相似系数所反映的样品或指标的亲疏程度的意义是不同,因此,在运用中应该根据不同的实际情况,选择不同距离或相似系数。 实际意义原则 数据性质原则 实际意义原则 即所选择的距离或者相似系数应该具有明确的实际意义。比如经济指标之间的相关应该是具有现实的经济联系的。 数据性质原则 根据原始数据的各自特点,选择不同的数据变换,再根据不同的数据变换选择不同的距离或者相似系数。 1、若数据进行了标准化,则相关系数与夹角余弦是一致。 2、若聚类分析前已经对变量的相关性作了处理,则通常采用欧氏距离,而不必选用斜交空间距离。 3、所选距离应与所选聚类分析方法一致 (1)若聚类方法为离差平方和法时,距离只能选用欧氏距离; (2)工作量大小原则。斜交空间距离的计算量一般很大。 总之,在一般情况下,有以下的经验可以借鉴。相关系数的稳定性要强于相似系数,而分辨力却弱于相似系
您可能关注的文档
最近下载
- 中招英语质量分析.pptx VIP
- 北师大版六年级上册数学知识点汇总(精华版).docx
- 课程思政在小学英语教学中的实施效果教学研究课题报告.docx
- 《语言障碍的康复》课件.ppt VIP
- 2025年中国小家电未来发展趋势分析及投资规划建议研究报告.docx VIP
- 语言与言语训练的方法课件.ppt VIP
- 统编版2024道德与法治七年级上册 教材单元思考与行动解答示例.pptx
- DB52T 780—2012贵州省白酒工业旅游示范点评定规范.pdf VIP
- 2025年医院招聘考试公共基础知识历年试题及答案解析(4).docx VIP
- (2025秋新版)北师大版三年级数学上册《铅笔有多长》PPT课件.pptx VIP
文档评论(0)