网站大量收购独家精品文档,联系QQ:2885784924

第九章 大学本科精品课件.ppt

  1. 1、本文档共251页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

假设我们研究的对象有两个特征属性,分别是X和Y,我们对5个样本进行数据采样的结果如表5.1所示。对5个样本进行数据采样的结果表一是,要考虑去除掉特征之间的相关性,想法是创造另一组新的特征来描述样本,并且新的特征必须彼此之间不相关。二是,在新的彼此无关的特征集中,舍弃掉不重要的特征,保留较少的特征,实现数据的特征维度降维,保持尽量少的信息损失。主成分分析思路:构造彼此无关的新特征协方差的定义公式:化简:将X中的每一个变量都减去他们的均值,同样将Y中的每一个变量都减去他们的均值v。这样,经过零均值化处理后,特征X和特征Y的平均值都变为了0。使用5.1的例子通过求协方差矩阵C的特征向量,得到了新选择的两个线性无关的特征投影基,协方差矩阵????????????????????????????????????的特征矩阵为?????????????????????????????????????????????????????????????????????。二、因子分析的基本步骤第一步,确定因子分析的目的和样本容量。第二步,建立相关系数矩阵,检查变量之间的相关性。第三步,选择因子分析的方法。第四步,确定因子个数。第五步,因子载荷矩阵的旋转。第六步,因子解释。第七步,计算因子得分。第八步,测定模型的合适性四、因子分析(一)因子分析的类型与基本模型因子分析可以分为R型因子分析和Q型因子分析。R型因子分析是研究指标(变量)之间的相互关系,Q型因子分析是研究样品之间的相互关系。假如变量是标准化的,则因子分析模型可表示为:式中:Xi—第i个标准化了的变量Aij—第j个变量在第j个公因子上的标准化了的多重回归系数Fi—第i个公因子Vi—变量i在特殊因子之上的标准化了的回归系数Ui—变量i的特殊因子m—公因子的个数数据降维的需求背景在研究工作中,我们常常针对我们关注的研究对象,去收集大量有关他的特征属性,从而对其进行细致的观测和深入的分析。比如,在对一组城市进行研究的时候,我们可以从人口、GDP、面积、年降水量、年平均温度、人均寿命、人均工资、人均受教育年份、性别比例、宗教人口、汽车保有量、人均住房面积等维度去收集相关数据。这里随手一列就是十几个特征属性,其实就算列出一百个来也不足为奇。我们收集越多的特征属性就越方便我们全方面的对事物进行细致的研究和考量,对深层次的规律进行探寻。目标:特征减少,损失要小如何对样本的特征属性进行降维。目标是什么?归结起来有两点:第一个目标当然是特征维度要变小,不能使用那么多的特征属性了。第二个目标是描述样本的信息损失要尽量少。数据降维,一定伴随着信息的损失,但是如果损失的太多了,自然也就失去了意义。回归系数检验假设检验(HypothesisTesting):是推断统计的最后一步,是依据一定的假设条件由样本推断总体的一种方法。你提出你的假设:说你有特殊的能力,可以品出先倒茶还是牛奶;我提出要检验你的假设:品十(x)杯,看实验结果是不是和你说的假设相符假设检验的基本思想是小概率反证法思想,小概率思想认为小概率事件在一次试验中基本上不可能发生,在这个方法下,我们首先对总体作出一个假设,这个假设大概率会成立,如果在一次试验中,试验结果和原假设相背离,也就是小概率事件竟然发生了,那我们就有理由怀疑原假设的真实性,从而拒绝这一假设。为了完成假设检验,需要先定义一个概念:P值。根据上面的描述,这里假设检验的思路就是:假设:这位女士不能准确的猜出先倒茶还是牛奶(没有确凿证据一般不推翻的假设,正常情况下我们都不能猜出先倒茶还是牛奶,所以我们假设这位女士不能准确的猜出先倒茶还是牛奶)检验:认为假设是成立的,然后猜十次,看结果与假设是否相符猜奶茶的实验应该符合二项分布,也就是:把八次猜对概率,与更极端的九次猜对、十次猜对的概率加起来:单侧检验当关键词有不得少于/低于的时候用左侧,比如灯泡的使用寿命不得少于/低于700小时时当关键词有不得多于/高于的时候用右侧,比如次品率不得多于/高于5%时双侧检验单侧检验指按分布的一侧计算显著性水平概率的检验。用于检验大于、小于、高于、低于、优于、劣于等有确定性大小关系的假设检验问题。这类问题的确定是有一定的理论依据的。假设检验写作:μ1μ2或μ1μ2。双侧检验指按分布两端计算显著性水平概率的检验,应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H1:μ1≠μ2。显著水平一般认为P-value=0.05就可以认为假设是不正确的。0.05这个标准就是显著水平,当然选择多少作为显著水平也是主观的

您可能关注的文档

文档评论(0)

VIVIAN + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档