应用多元统计分析1.pptVIP

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第三节多变量图描述

在用脸谱图对观测对象进行比较分析时,脸谱形状受各变量次序的影响很大.如果将本例中8个变量的次序换一下,得到的脸谱图会很不一样.另外,不同人关注的脸的部位有很大不同,有人在意胖瘦,有人在意五官.实践中脸谱图必须与聚类分析等量化分析方法结合使用.与脸谱图相比,雷达图和星图受变量排序和人为主观偏好的影响较小.注意:

第三节多变量图描述

1.3.3轮廓图--把多个变量(或样品)的取值放在同一个图中用线连起来,就是轮廓图(又称折线图).--图1.7展示了8个变量在31个地区的取值.--当然,我们也可以行列颠倒,画31条折线,以显示31个地区在8个变量(方面)的取值.它们都有助于比较31个地区取值的不同.--轮廓图的优点是直观明了,缺点是在变量或样品多的时候,折线易摞在一起,难以分清.

第三节多变量图描述

总之,各种图示方法虽然直观,但也容易受主观因素的影响.因此,实践中要与有关量化分析方法结合使用.得到图1.7的R语句作业安装SPSS或R或SAS,重复课件中画图和分析做习题1和2,将分析报告email到:duoyuan2015@126.com

应用多元统计分析

趙博娟编著

参考书目:《从数据到结论》,吴喜之编著,中国统计出版社BusinessStatistics:ADecision-makingApproach(D.F.GroebnerP.W.Shannon)《AppliedMultivariateStatisticalAnalysi》第6版,R.A.JohnsonandD.W.Wichern清华大学出版社,2008。《应用多元统计分析》,高惠旋编著,北京大学出版社,2005。《多元统计分析》何晓群编著,中国人民大学出版社。

第一章数据收集和描述

第一节数据收集

第二节两变量图描述和量化分析

第三节多变量图描述

第四节上机实现

第一节数据收集

1.1.1一手和二手数据

一手数据(primarydata,也叫原始数据)是一些组织或个人为了某些特定的应用或研究目的,必须自己来收集的数据.二手数据(secondarydata)是其他人收集的(对于他们来说是一手数据),而你仅仅用它来进行分析或进行数据挖掘,该数据对你来说则是二手数据.常见的二手数据包括从期刊和网络上找到的,由政府、机构、公司、组织专门收集和维护的数据,比如:外汇牌价、房价、人口抽样调查结果等数据在开展一手数据收集前,要先调研一下是否已经有相应的二手数据存在.而在使用二手数据的过程中,要了解数据的来源及其真实和可靠程度,是否符合研究目的,以便恰当地进行分析并解释结果.试验数据和观测数据

试验数据(experimental?data)中的自变量取值是可以人为改变的.比如,通过调节冶炼金属的时间、温度和原料配比,寻找最佳组合条件,以炼成满足某些性能指标的金属材料;这类数据便于分析因果关系.实践中,我们遇到的绝大部分二手数据都是观测数据(observational?data).如跟踪观测研究吸烟与罹患癌症的关系等.这类数据的自变量不能随意调节,我们不能在身体健康状况完全类似的人中随机抽样,强迫一部分人吸烟而另一部分不吸,之后观测他们将来是否罹患癌症.

第一节数据收集

1.1.2数据的度量级别和类型名义数据(nominaldata),也叫定性数据或分类数据(categoricaldata),是最低级形式的数据,我们可以对数据取值任意编号.如对婚姻状态,可以用1~4或M,S,D和O分别标记,即是M(已婚),S(未婚),D(离婚)和O(其他)有序数据(ordinaldata)-比名义数据高一级别,数据的类别是有序的.如健康状态:1(非常健康),2(健康),3(一般),4(不健康)和5(非常不健康).级别--从低到高包括:

区间数据(intervaldata)是有序的,而且任意两点的距离是可以精确度量出来的.如华氏(Fahrenheit)和摄氏(Celsius)温度.比率数据(ratiodata)有真正有意义的零点,度量级别最高.如体重、高度、距离、钱包里的钱数等等.口袋没钱,不管是美元还是人民币元,都是0.

第一节数据收集

数据的类型

文档评论(0)

180****1080 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档