- 1、本文档共80页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
聚类分析及其应用胡咏梅教育经济研究所教育统计学-教育学部本科生课程
聚类分析及其应用聚类分析概述:概念、准则及原理聚类方法:分层聚类(系统聚类)与快速聚类聚类分析方法应用示例聚类研究的质量评价课堂操作练习
聚类分析概述概念:聚类分析是统计学中研究“物以类聚”的一种方法,即根据事物外显特征研究个体分类的多元统计分析方法。聚类分析按分类的对象不同,可分为样本聚类(或称个案聚类)和变量聚类两种类型。样本聚类是根据被观测对象的各种特征,即反映被观测对象特征的各变量值对样本进行分类。在教育研究中适用于对于学生或学校按照某些指标进行类别划分等方面。例如:对大学按照办学质量分类、对学生按照兴趣爱好分类、对校长进行领导风格分类等等。
聚类分析概述变量聚类是一种降维的方法,用于在变量众多时,寻找有代表性的变量,以便当用少数、有代表性的变量代替原始较多变量时,损失的信息很少。在教育、心理研究中适用于对高校各系课程变量的类属划分以及心理结构变量的探查等方面。
聚类分析概述准则:聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法。其中:类内个体具有较高的相似性,类间的差异性较大。
例:假设现在对A、B、C、D、E五所高校教学、科研、社会服务三大职能进行评价,评分情况如下:若对以上五所高校进行分类,依据平均得分的差距,将差距较小的分为一类,我们可以将A、B高校分为一类,C高校为一类,D、E高校为一类。
聚类分析研究的关键问题问题1.怎样测量相似性?问题2.如何聚类?问题3.形成多少类别最合适?
亲疏远程度的衡量指标:衡量亲疏程度的指标有两种,即距离和相似系数。变量之间的亲疏程度则通常用相似系数来度量。相似系数越接近于1或-1时,认为变量之间的亲疏程度越高;相似系数接近于0时,认为变量之间是无关的。比如夹角余弦、相关系数:聚类分析原理:1.怎样测量相似性?
聚类分析原理:1.怎样测量相似性?距离是将每个样品看成m个数据对应的m维空间中的一个点,然后在该空间中所定义的距离越近,则亲疏程度越高。如何定义数据间的距离呢?不同测度水平的数据间的距离定义是否不同?
定距型个体间的距离:把每个个案数据看成是m维空间上的点,在点和点之间定义某种距离。一般适用于定距数据。欧氏距离(EUCLID)平方欧氏距离(SEUCLID)明可夫斯基距离(欧氏距离是其特例)缺点:要求各指标计量单位相同,而且同等看待各指标的重要性。切比雪夫距离聚类分析原理:怎样测量相似性?
个体距离矩阵定距型个体间的距离:连续型变量聚类分析原理:怎样测量相似性?两类:(AB)(CDE)三类:(AB)(C)(DE)
定距型个体间的距离:计数变量聚类分析原理:怎样测量相似性?姓名选修课门数(期望频数)专业课门数(期望频数)得优门数(期望频数)合计张三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合计1712938
类属型个体间的距离选课是否喜欢是否选择是否喜欢特征讨论式教学方法类课程年轻老师授课学生姓名张三111李四110王五001聚类分析原理:怎样测量相似性?
类属型个体间的距离—简单匹配(simplematching)系数:适用二值变量。个体j个体i101ab0cda为个体i与个体j在相同变量上同时取1的个数;d为同时取0的个数。特点:将同时拥有或同时不拥有某特征的情况看做匹配;取0和1地位等价,编码方案的变化不会引起系数的变化。聚类分析原理:怎样测量相似性?
类属型个体间的距离—简单匹配(simplematching)系数:适用二值变量。姓名是否喜欢讨论课是否喜欢方法课是否喜欢年轻老师张三111李四110王五001(张三,李四):a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(张三,王五
文档评论(0)