6第六章不等概率抽样.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 第六章 不等概率抽样 §1 概述 一、不等概率抽样的定义和特点 (一)定义: 如果总体中每个单元进入样本的可能性是不相等的,则这种随机抽样方式就称为不等概率随机抽样,简称不等概率抽样。 (二)特点:将总体中每个单元的入样概率与其“规模”大小联系起来,使得“大单元”被抽到的概率大,“小单元”被抽到的概率小。 二、不等概率抽样的优点和局限性 (一)优点:能够大大提高抽样精度,减少抽样误差。 (二)局限性:必须具有能够说明单元规模大小的辅助变量来确定各个单元的入样概率或包含概率。 三、不等概率的适用场合:总体单元之间的差异较大。 四、不等概率抽样分类: 我们最关心也是最重要的情形是抽样容量 n固定时,单元入样的概率(不放回抽样)或每次抽样的概率(有放回抽样)与单元的大小严格成比例。这种情况下的有放回抽样称为 抽样不放回抽样称为 抽样。 §2 放回的不等概率抽样 1、多项抽样、 抽样及其实施方法 既然是不等概率抽样,那么就应该在抽样之前给总体中 的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽 取中,设第 个单元入样的概率为 且 ,按此规定有放回地独立抽取 n 次,形成所谓 的多项抽样。 假设第 个单元在 n次抽样中被抽中 次,则 是一个随机向量,其联合分布为: 这是我们熟悉的多项分布,多项抽样其名正出于此。 (7.1) 多项分布(7.1)具有如下性质: 倘若单元有一个数值度量其大小,诸如职工人数、工厂产值 商店销售额等,或者感兴趣的调查指标在上一次普查时的数 据也可以作为其单元大小的一种度量。记 为第 个单元的 “大小”,并记 多项抽样是最简单的不等概率抽样,它的实施方法通常有两种,以pps抽样为例。 则可取 此时多项抽样体现了每次抽样时单元的入样概率与单元的大 小成比例,即为pps抽样。 (1)代码法 它适合于 N不太大的情形。假定所有的 为整数,倘若在实际中存在 不是整数的话,则可以乘以一个倍数使一切 为整数(对一般的多项抽样,也总可找到整数 ,使一切 成为整数)。对于具整数 的第 个单元赋予一个与 相等的代码数,见表7—1。 单元 单元大小 代码数 表7—1 pps 抽样时各单元的代码数 每次抽样前,先在整数 里面随机等可能的选 取一个整数,设为m ,若代码 m 属于第 j个单元拥有的代码 数,则第 j个单元入样。整个过程重复 n次,得到 n个单元 入样(当然存在重复的可能性)构成 pps 样本。 例7.1 设某总体共有N=8个单元,相应 及代码如表所示 1 2 3 4 5 6 7 8 2/5 1/2 2/3 4/3 8/5 3/5 2/3 1 12 15 20 40 48 18 20 30 累计 12 27 47 87 135 153 173 203 代码 1~12 13~27 28~47 48~87 88~135 136~153 154~173 174~203 若取 n=3,在1~203中随机有放回地产生3个随机整数,不 妨设为45、89、101,则第 3 个单元入样一次,第 5 个单 元入样 2 次。 (2)Lahiri(拉希里) 方法 当 N 相当大时,累计的 将很大,给代码法的实施带 来很多不方便。Lahiri提出下列方法:令 每次抽取 1~N 中一个随机整数 及 1~ 内一个随机整数 ,如果 ,则第 个单元入样;若 ,则按前面 步骤重抽 ,显然,第 个单元的入样与否受到 的影 响,只有 时它才入样,因此第 个单元入样的概率与 的大小成正比,此时 m 2、Hansen-Hurwitz (汉森—赫维茨)估计量 若 是按 为入样概率的多项抽样而得的样 本数据,它们相应的 值自然记为 ,则对总 体总和, Hansen-Hurwitz 给出了如下的估计量: (7.4) 且 ,即 是总体总和 的无偏估计。 (7.6) 的无偏估计为 (7.7) §2 不放回的不等概率抽样 上一节讲述了有放回不等概率抽样,无论从实施上还是从估计计算以及精度估计都显得十分方便。但是,一个单元被抽中两次以上总会使样本的代表性打折扣,从而引起抽样误差的增加。因此,实际调查工作者一般倾向于使用不放回形式。 最简单的不放回不等概率抽样方式自然会想到逐一抽样这在第一次抽样时不会发生问题,但在抽第二个样本时面临的情况与有放回时大不相同,余下的 ( N-

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档