北航数理统计大作业-聚类分析及判别分析.doc

下载文档 降价啦

16
0
约2.42万字
约 16页
2017-08-23 发布于河南
举报
版权申诉
保障服务

北航数理统计大作业-聚类分析及判别分析.doc

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

北航数理统计大作业-聚类分析及判别分析

应用数理统计聚类分析与判别分析（第二次作业）学院：姓名： ? 学号： 2013年12月我国部分城市经济发展水平的聚类分析和判别分析摘要：本文基于《中国统计年鉴》（2012年版）统计数据，寻找评价城市经济发展水平的指标，包括第二三产业发展水平、固定投资额、社会消费零售总额和进出口贸易交流五个指标，利用统计软件SPSS综合考虑各指标，对所选城市进行K-Means 聚类分析，利用Fisher 线性判别待判城市类型，进一步验证所建模型的有效性。关键字：聚类分析，判别分析，SPSS ，城市经济发展水平1，引言经过改革开放后三十多年的长足进展，中国城市化已步入中期阶段，步伐加快，质量显著提高。同时，中国城市化又处于周期转折点上，上一周期行将结束，下一周期将要开始。2011年中国城市化率首次突破50％，意味着中国城镇人口首次超过农村人口，中国城市化进入关键发展阶段，这必将引起深刻的社会变革。根据2011年4月公布的第六次人口普查数据，2010年中国居住城镇的人口接近6.6亿人，城镇化率达到49.68%，全国已有近一半的人口居住在城镇，这意味着中国将进入城镇时代。在过去30多年中，中国的城市化发展取得了很大成绩。然而，总体上中国的城市化道路是城市化滞后于工业化的非均衡道路；是土地城市化快于人口城市化的非规整道路；是以抑制农村、农业、农民的经济利益来支持城市发展，导致不能兼顾效率和公平的非协调道路；是片面追求城市发展的数量和规模，而以生态环境损失为代价的非持续道路；是以生产要素的高投入，而不是投入少、产值高、依靠科技拉动经济增长的非集约道路。传统的城市化存在着诸多弊端，中国未来的城市化必须走出一条具有自身特色的新型城市化道路。具体而言，中国城市经济发展水平受限于地理、环境、资源以及国家政策等因素的影响，我国不同区域的城市化进程尚存在很大差异。2012年中国城市发展报告中指出，从区域角度看，目前沿海一带城市发展起步早，与国际贸易交流往来频率高，经济发展水平较高，西部地区受到国家政策的大力扶持，表现出了强劲的增长势头，西部主要城市经济发展水平仅次于沿海发达地区，而中部地区城市发展的水平已经落到了最后。显然，通过研究不同城市的经济发展状况和经济类型，指出其发展差异所在，可以为政府在出台相关政策来平衡区域经济发展，缩小不同地区人民生活水平的差异提供一定的指导意见，也为我们深刻理解国家相关政策提供了扎实的基础。 2，相关统计基础理论 2.1，聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看，聚类分析是通过 HYPERLINK /view/1452242.htm \t _blank 数据建模简化数据的一种方法。传统的统计聚类分析方法包括 HYPERLINK /view/3821813.htm \t _blank 系统聚类法、 HYPERLINK /view/3242456.htm \t _blank 分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k- HYPERLINK /view/1052684.htm \t _blank 均值、k-中心点等 HYPERLINK /view/7420.htm \t _blank 算法的聚类分析工具已被加入到许多著名的统计分析 HYPERLINK /view/600107.htm \t _blank 软件包中，如 HYPERLINK /view/130328.htm \t _blank SPSS、 HYPERLINK /view/325942.htm \t _blank SAS等。本文使用统计软件 HYPERLINK /view/130328.htm \t _blank SPSS对所收集的数据进行快速聚类，其特点是：在确定类别数量基础上，先给定一个粗糙的初始分类，然后按照某种原则进行反复修改，直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多，本文使用的是K-Means 算法。 K-Means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。 K-Means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重