数理统计次大作业——聚类与判别分析.docVIP

下载本文档

20
0
约2.51千字
约 8页
2017-04-07 发布于江苏
举报
版权申诉

数理统计次大作业——聚类与判别分析.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数理统计次大作业——聚类与判别分析

地区生产总值及经济发展状况的统计分析学号：姓名：摘要：本文运用统计学方法，基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区，对更好地进行统筹规划，促进各地区经济健康协调发展有积极意义。对各地区的经济发展状况进行的聚类和判别分析结果显示，北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位，属于经济较发达地区；辽宁﹑湖南﹑河南等中部省份处于中游，属于中等发达地区；而位于我国西部的西藏﹑青海﹑宁夏等省份，经济发展较为缓慢，属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。关键词：地区生产总值，地区经济发展， SPSS，聚类分析，判别分析 1.引言国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年)，一个国家或地区的经济中所生产出的全部最终产品和劳务的价值，常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现，更可以反映一国的国力与财富。地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况，通过建立地区生产总值模型，对各地区经济发展状况进行分类，具有一定的准确性和合理性。本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析，分析和评定各地区经济发展情况，同时对各地区进行分类，确定经济优势地区和经济薄弱地区。 2.地区经济发展的聚类和判别分析分地区生产总值主要包括的内容有: 第一产业: 包括农、林、牧、渔业。第二产业: 包括工业及建筑业。第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业及其他产业。 (一)相关自变量的选择本文从分析各地区生产总值的主要内容出发，展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大，为了便于分析，我们将农林牧渔等第一产业部分合为一类，与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业、其他产业等元素一起作为自变量进行聚类分析和判别分析。需要聚类和判别的地区为北京、上海等31个省市、自治区、直辖市（不包括港澳台地区）。我们选用2006和2007年度地区生产总值的数据进行分析（2006年度数据来自中国统计年鉴2007，2007年度数据来自中国统计年鉴2008，见附件）。（二）聚类分析首先采取系统聚类法（hierarchical cluster）进行对所有31个地区聚类分析（数据为2007年度地区生产总值）：表1 处理过程汇总表1表示所有观测量都加入聚类判别分析，没有遗漏。表2 聚类过程小结聚类进度表，表中列出了观测量或类合并的详细步骤。图1 树状谱系图图中横向聚类表示差异的大小，从图中可以清晰的看出整个的观测量的聚类过程。分析结果显示，青海、宁夏、海南、西藏、贵州、甘肃、重庆、新疆和云南等省份可以划归一类，它们在经济发展中处于不利地位，是经济欠发达地区。北京、河北、河南、上海、浙江、江苏、山东、广东等省份作为经济较发达地区，可以划归另一类。其余省份划归第三类，为经济中等发达地区。下面基于做好的分类对结果进行判别分析，确定聚类结果的准确性。（三）判别分析为了鉴别聚类分析结果的准确性，我们选用2006年相同地区的数据对上述分类进行判别分析。在这里我们选用Fisher判别法构造判别函数。分析结果如下：表3 案例分析过程表3表明所有变量都进入了判别分析。表4 变量表用逐步分析方法选择用于构造判别函数的变量。表5 逐步分析法变量表表6 特征值 Eigenvalues代表用于分析的前两个典则判别函数的特征值, 是组间平方和与组内平方和之比值。最大特征值与组均值最大的向量对应, 第二大特征值对应着次大的组均值向量。表7标准化的典则判别式函数系数标准化的典则判别式函数系数(使用时必须用标准化的自变量)。由图可知Fisher判别法构造的两个典则判别函数为： Y1=1.275X1+1.824X2-1.654X3 Y2=-0.639X1-0.815X2-0.065X3 表8 结果预测分类结果小结,可以看出初始分组的正确率。表9 详细分类结果从图中我们可以看出，有一个观测量被错误地分到了第1类上，这个观测量是16山东。预测结果应是第二类，但不排除是此地区2006年的发展使其经济状况改善的结果。上图为观测量分类点图，从图中我们可以清楚地看到观测量的分类情况，可见三个类型的中心点距离较远，区分效果