网站大量收购闲置独家精品文档,联系QQ:2885784924

Cluster Analysis.ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Cluster Analysis.ppt

聚类分析 * 物以类聚,人以群分 什么是类? 分类的依据是什么?如何分类? * 类 Birds of a feather flock together 类:相似元素的集合。 不同问题中类的定义也不同。 * 分类依据和目的 把性质相近的个体归为一类,使得 同一类中的个体具有高度的同质性 不同类之间的个体具有高度的异质性 * 用途和类型 类型 Q型聚类,样本聚类或样品聚类 R型聚类,变量聚类 用途 探测性研究 证实性研究 * 概念 群分析 聚类分析 源于分类学 经验和专业分类 数值分类学 聚类分析——一个相对独立的分支 * 如何分类——聚类分析 距离测度 聚类方法 聚类过程 层次聚类法 迭代聚类法 * 距离测度 距离测度 相关测度 关联测度 * 距离测度 适用于定距尺度以上的数据 把n个样品看作是p维空间的中的n个点,则两个样品间的相似程度可以用p维空间中两点的距离来测度。 距离越近的点,相似程度越高。 易受变量量纲影响 方法 欧式距离平方 欧式距离 绝对值距离 * 相关测度 适用于定距尺度以上的数据。 Pearson correlation 反映变化模式的相似性 形状测度 对变量值的大小不敏感 * 关联测度 适用于名义尺度和有序尺度的数据 * 聚类方法 最短距离法 两类间的距离定义为两类间最近点的距离 最长距离法 两类间的距离定义为两类间最远点的距离 平均联结法 两类间的距离定义为两类中案例之间距离的平均值 组间联结法:使两类之间两两案例之间的平均距离最小 组内联结法:使两类中所有案例之间的平均距离最小 重心法 两类间的距离定义为两类重心之间的距离,重心是该类中所有案例在各个变量上的均值所代表的点 要求采用欧氏距离 离差平方和法 同一类内案例的离差平方和较小,类与类的离差平方和较大 要求采用平方欧氏距离 * 聚类过程:层次聚类法 聚集法 Agglomerative Method 把各案例各自看成一类,把距离最近的两类合并; 计算类与类之间的距离,把距离最近的两类合并; 继续上述过程直至所有的案例归为一类为止。 分解法 解法的过程与聚集法相反,先把所有的案例归为一类,然后把最不相似的两类分解,每一步增加一类,直至每个案例自成一类。 SPSS操作 * SPSS操作 * 聚类过程:迭代聚类法 快速聚类 使用欧氏距离平方 只能处理连续变量 如果变量量纲不同,应先进行标准化 * 迭代聚类 指定聚类数; 对样本进行初始分类,计算每一类的重心; 调整分类,计算每个样本点到各类重心的距离,按距离最小原则把每个样本点归入重心所在的类中; 重新计算每一类的重心; 重复调整分类和计算重心,依次迭代下去,直到达到指定的迭代次数或达到终止迭代的判据要求,没有样本点可以再调整为止。 * 初始分类方法 未知初始聚类中心 由SPSS自行估计初始聚类中心 已知初始聚类中心 先用层次聚类方法分类 选择每一类中有代表性的点作为初始聚类中心 使用样本点作为初始聚类中心 * 注意 聚类分析只能处理数值性变量 聚类分析是对数据的概括归纳,而不是要找出什么自然的或真实的类;聚类的结果仅仅反映了所选定变量所定义的数据结构 不同方法聚类的结果一般不会完全一致 一般衡量标准 结合对问题本身的客观认识 类间的距离尽可能大,类中点的距离尽可能小 各类所包含的元素不要过分多

文档评论(0)

5566www + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6122115144000002

1亿VIP精品文档

相关文档