统计注意区分的概念.docVIP

下载本文档

8
0
约2.17千字
约 6页
2017-02-15 发布于江苏
举报
版权申诉

统计注意区分的概念.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计注意区分的概念

一、 1、分类变量：表现为不同的类别。如“性别”、“企业所属的行业” 学生所在的学院等顺序变量：类别有一定的顺序。如一个人对事物的态度、药物的疗效、考试成绩按等级等 2、概率抽样（按一定的概率以随机原则抽取样本）的方法有简单随机抽样、系统抽样（等距抽样）、分层抽样、整群抽样非概率抽样：(非随机原则确定调查单位)。如方便抽样（随意抽样）：调查员在街头、公园、商店等公共场所进行拦截调查二、适用于定性数据的图形：条形图、帕雷托图、饼图等直方图、茎叶图、箱线图、散点图(展示两个变量之间的关系)只适于定量数据三、集中趋势说明数据集中的位置，代表数据的一般水平。一般用算术平均数（均值）表示。数据偏态分布时，考虑选择中位数或众数。均值是最常用的统计量，中位数（顺序、定量数据），众数适用面广，适合所有类型数据描述离散程度：极差、方差、标准差、离散系数能够反映数据“位置”且比较稳健的有中位数、分位数、标准差离散系数：标准差与其相应的均值之比。用于对不同组别数据离散程度的比较。如果原始数据的绝对值相差较大或计量单位不同时，不能用标准差比较离散程度，要用离散系数。（离散系数小，说明数据离散程度小）标准分数：标准差是方差的平方根四、中心极限定理：从均值为(，方差为( 2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。样本均值的标准误差：参数：研究者想要了解的总体的某种特征值。统计量：根据样本数据计算出来的一个量，描述样本特征。五、评价估计量的标准：无偏性、有效性与一致性无偏性：样本估计量的均值等于被估总体参数的真值；有效性:好的点估计量应具有较小的方差；一致性:当样本容量增大时，估计量依概率收敛于总体参数的真值。置信区间与置信水平：置信区间的宽度表明估计误差的大小，说明估计的精确性。区间的长度愈大，估计区间包含真值θ的可能性也就愈大，但是估计也愈不精确。置信水平是一个概率值，是所有可能的随机置信区间中覆盖总体参数真值的比例。说明估计结果的可靠性。在其他条件如抽样方法、方式、样本容量等不变时，置信区间与置信水平是一对矛盾，即要提高精确性（缩小置信区间），就得降低可靠性（置信水平降低），若要提高可靠性（加大置信水平），就得容忍较大的误差。六、双侧检验与单侧检验：当我们只关心差异大小，而不关心差异的方向时，应进行双侧检验；当我们只关心某一方向的差异大小时，应进行单侧检验。备择假设含 “”左侧； “ ’” 右侧。备择假设是研究者搜集证据要支持的假设。显著性水平(：原假设为真时，拒绝原假设的概率原假设为真而被拒绝，也称为第一类错误。拒绝原假设意味着：有充足的理由否定原假设；犯错误的概率不大于显著性水平α；在H0为真的假设下发生了小概率事件。总体均值检验：总体服从正态分布，总体方差已知或大样本时总体服从正态分布，总体方差未知，小样本时七、方差分析分析对象：定性变量对定量变量影响分析方差分析对数据有3个基本假定：正态性；方差齐性；独立性八、最小二乘法具有如下特征：回归分析中，因变量是随机变量，自变量一般是非随机变量。评价回归模型的统计量：判定系数、估计标准误差估计标准误差 R2 (1，说明回归方程拟合的越好；R2(0，说明回归方程拟合的越差 R2=0，变量不存在线性相关关系一元线性回归模型误差项 ( 是随机变量，反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响。回归系数说明自变量每变动一个单位，因变量平均变动的程度。十、时间数列的组成要素、含义区分指数平滑关键是确定合理的平滑系数，时间数列随机波动较大时，选择较大的，否则选择较小的。移动平均法：使用最近K期的数据，将每个观察值都给予相同的权数，十一、主成分、因子分析作用：降维，压缩数据十二、聚类分析作用：分类种类：方法——分层聚类、快速聚类（K—均值聚类）对象——R型聚类、Q型聚类聚类分析的基本原则是：类内差异小，类间差异大。参数检验-两独立样本T检验（1）前提：样本来自的总体应服从和近似服从正态分布；两样本来自同一个总体，但相互独立。（2）目的：检验两个总体的均值是否存在差异。（3）过程：提出假设-两总体的均值无显著差异---选择统计量--计算检验统计量观测值和概率--给定a，作出决策（4）例子：提出假设：本地和外地户口人均面积没有显著性差异，Analyze-comepare means--Independent-sample T Test 结论：第二张表的