- 1、本文档共84页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
相似系数(similar coefficient)是针对样本而言,第i 和第r 个样品的相似系数,计算公式为 或 对于任意两个变量x 和y 的相关系数可以用标准计分表示,即有 3.2 几何意义和实例 相关系数与相似系数的几何意义是相似的,可以类比得知。下面基于标准化数据,说明相关系数的几何意义。为了简明起见,标准化数据的右上角标省略。 对于标准化数据,原点为O( x, y )=O(0,0),计算X与Y的夹角 这正是标准化数据的相关系数公式。其中 下表是2000 年北京、天津及上海的非农业人口和建成区面积(表)。非农业人口和建成区面积为变量,城市为样品。 在变量(建成区面积和非农业人口)空间中表示样品(北京、天津和上海)—Q 型分析(基于变量分析样品);在样品(北京、天津和上海)空间中表示变量(建成区面积和非农业人口)—R 型分析(基于样品分析变量)。 4、实验和调查数据的处理 4.1 平均值代表真实值 4.2 平均值代表真实值的数学原理 根据极值条件,令 立即得到 5、 数据的缺失与估计 5.1 无交互作用双因素方差分析(two-factors analysis of variance) 误差平方和最小原理是估计缺失数据的基本思想和技术途径。 给定一个数据表格,我们对其行、列进行加和(下表)。假设变量自左向右排列,样品自上而下排列,则行之和表示样品之和,列之和表示变量之和。 ? 将总平方和按照下式展开为 根据无交互作用的双因素方差理论,基于线性统计模型 行列因素的总平方和 列因素产生的变差平方和为 行因素产生的变差平方和为 随机误差项平方和为 因此 理论上,随机项误差平方和越小,补充的数据就越是符合实际。假定缺失数表示为x,根据极值条件,要想使得误差平方和最小,则须满足 求解上述方程,可得缺失数的补充值。 假如缺失两个数据,分别表示为为x、y,根据极值 条件,要想使得误差平方和最小,应有 5.2 数据补缺实例 缺失一个数据的例子。下表是缺失一个数据的数据集,缺失的数据用x 表示 ? ? 可以看出,上面的估计结果与所缺数据还是很接近的。但是,在现实中,缺失的数据越多,估计的结果往往偏差也就越大。 最后强调两点:其一,缺失数据的估计仅仅是一种计算上的技巧,不宜多用——不到万不得已,最好不用。其二,如果采用了缺失数据的估计,必须在文章或者研究报告中注明,让读者分清哪些数据属于补缺的结果。 2、 数据标准化 2.1 数据标准化的方法 2.2 标准化数据的性质 2.3 广义标准化 3、相关系数与相似系数 3.1 相关/似系数的计算公式 3.2 几何意义和实例 3.3 基于二样本的变量相关系数 4、实验和调查数据的处理 4.1 平均值代表真实值 4.2 平均值代表真实值的数学原理 5、数据的缺失与估计 三、基本概念 总体 、个体、样本、标志、变量、指标 均值、方差、标准离差、协方差、极差、变异系数、标准误差、自由度 四、计算工具 统计计算工具是完成统计分析的必要条件。常用的统计分析软件 分类数据 分类数据是对事物进行分类的结果,数据的主要特征是采用文字、数字的代码和其他符号对事物进行简单的分类和分组。 分类数据以定类尺度(nominal scale)来衡量。 顺序数据 即:等级数据 是对事物进行分类的结果,只是这些分类在语义上表现出明显的等级或顺序关系,例如,学生的成绩可以分为优秀、良好、中等、及格和不及格。 顺序数据以定序尺度(ordinal scale)来衡量。 数值型数据 数值型数据是使用自然或度量衡单位对事物进行测量的结果,其结果表现为具体数值。 数值型数据有两种衡量尺度: 一是定距(间隔)尺度(interval scale) 二是定比尺度(ratio scale) 区别:“零点” 时间序列数据 时间序列数据(time series data)是在不同时间上收集到的数据,它所描述的是现象随时间而变化的情况。 截面数据 截面数据(cross-sectional data)是在相同或近似相同的时间点上收集的数据,它所描述的是现象在某一时刻或某一时间段的变化情况。 总 体 统计总体,简称总体(Population),就是统计所要研究的事物或现象的全体,即由客观存在的,具有某种共同特征的许多个别事物构成的整体。 总体的特点:大量性、同质性、 差异性、相对性 个 体 个体(I
文档评论(0)