- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
样本结构性偏差的校准加权调整方法
样本结构性偏差的校准加权调整方法金勇进 1, 薛芳 1, 侯志强 2( 1.中国人民大学 统计学院, 北京 100872; 2.北方工业大学, 北京 100041)摘 要: 校准估计是基于事后分层的加权调整估计, 用于解决大规模调查中调查样本与总体存在结构性偏差的问题。本文系统总结了校准估计的方法, 特点, 以及校准估计与事后分层, 广义回归估计 的关系。关键词: 校准估计; 事后分层; 广义回归估计中图分类号: O21文献标识码: A文章编号: 1002- 6487( 2007) 05- 0008- 03在抽样调查中, 样本结构与总体结构产生偏差的原因很多。主要有以下方面: 一是调查前不能进行或来不及事先分 层, 使得在影响目标量的主要辅助变量上, 调查后样本结构 与总体结构存在偏差; 二是进行分层多阶段抽样设计时, 划 分总体的分类指标很多, 但由于条件的限制, 往往不能完全 考虑这些分类指标; 比如分层考虑了最主要的指标地区、城 乡, 没有考虑同样与调查目标量高度相关的年龄、文化程度 等因素。三是大规模的调查涉及调查单位和人员广泛, 层层 监督和控制难度加大; 四是大规模抽样调查后期对大量数据 的处理会对样本结构产生影响。如调查中无回答产生的问卷 失效率较高, 剔除失效问卷往往会产生结构性偏差。若在与调查目标量高度相关的指标上, 调查的样本结构 与总体结构有较大的偏差, 直接利用调查样本的初始权数进 行估计势必影响目标估计量的估计精度。在这种情况下, 要 想较为准确地推断出总体的有关信息, 提高估计的精度, 就 必须对调查的样本结构进行加权调整。校准加权调整是利用 已知调查总体的辅助信息 , 在满足一定的约束条件下, 对样 本进行加权调整, 使得加权后的样本结构尽可能的与总体结 构尽可能的一致, 减小样本结构与总体结构的差异性, 从而 达到减小抽样方差和偏差, 提高估计精度的目的。本文将系 统阐述校准估计的方法, 特点。以及校准估计与广义搜寻比 率估计, 事后分层估计, 广义回归估计的关系。助信息进行事后分层, 并利用辅助变量构造一个示性向量表示单元所属类别。辅助信息可以来自行政管理数据、普查或 其他调查, 并要求辅助变量的总体总量已知。事后分层可表 示成列联表形式。为简单起见, 下面以辅助信息为两个分类 变量为例, 构造列联表进行讨论。其结果可以推广到多个辅 助变量的情形。考虑有 N 个单元的有限总体 U, 假定该总体 被两个辅助变量交叉分为 rxc 类, 如 5 个年龄组和 11 个职业组的交叉分类数为 5×11=55。Uij, Sij 分别表示落入第(i,j)个格子内的总体和样本, Nij,nij 分别表示落入第(i,j)个格子内的总r体单元和样本单元数目, 即格子总计( cell counts) 。N=∑ ∑i=1crcj=1 Nij, n=∑i=1 ∑j=1 nij, Ni.,N.j,ni.,n.j 分别表示总体和样本的边际crc总计( marginal counts) 。其中 Ni.=∑j=1 Nij, N.j=∑i=1 Nij, n.j=∑j=1rn , n. =∑i=1 nij。Yij,yij 分别表示落入第(i,j)个格子内的目标变量ijj的总体总值和样本总值, Yij=∑k∈U yk, yij=∑k∈U yk。ijij对于调查的样本, 事后分层后格子总计和边际总计容易 确定, 但总体的格子总计和边际总计的确定依赖于所获取的 辅助信息翔实与否。利用辅助信息对总体进行事后分层后, 根据格子总计和边际总计是否已知可以把校准估计分为两 种情形。一是总体的格子总计和边际总计已知的情形, 称为 完全事后分层的校准估计。二是仅知道边际总计, 而格子总 计未知的情形, 称为不完全事后分层的校准估计。基于不完 全事后分层的校准估计又称为广义搜寻比率估计 ( Deville, SMrndal,and Sautory 1993) 。1.2 校准估计的原理考虑有限总体 U=N1,...k,...,NO, S#U 为抽取的一个样本。 由抽样原理知道, 基于抽样设计的样本单元的初始权数为dk=1 /πk, 其 Horvitz- Thompson 估 计 量Y^HT=ΣSyk /πk=Σsykdk 是 Y=ΣUyk 的一个无偏估计。记由多个辅助变量构造的示性向量 形式为 X=(X1,X2, , XP) ,样本中任何一个单元 k 都对应一组 观 测 值(yk,xk ), 这 里 xk=(x1k,x2k, , xPk) 。 若 第 k 个 观 测 在 第 i 类, 则 xik=1, 否则为 0。用 X=ΣUXk 表示已知的辅助信息的总1基于事后分层的校准加权调整方法校 准 估 计 是 由 Deville 和
文档评论(0)