现场调查数据分析(更新至2014.12).ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现场调查数据分析(更新至2014.12)

现场调查数据的处理分析 Survey Data Analysis 主要内容 常用统计分析软件 Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或文字处理软件如WORD等直接调用。 Epi Info v3.3 开发: (1)WHO的艾滋病全球控制小组 (2)美国CDC流行病学室 免费获得 (1) (2)http://www.epiinfo.it/epiinfo3.asp 必威体育精装版版本: Epi InfoTM Version3.3 基本流程 选择合适的数据管理与分析软件 资料的核对 资料的整理 资料的统计分析 选择合适的数据管理与分析软件 如:SAS、SPSS、Epi-Info、STATA 资料的核对 检查数据的结构 观测数,变量名称、数量 检查数据的完整性 失访数据(缺失数据) ① 查阅原始资料纠正;② 剔除观察记录;③ 用统计学方法填补缺失值 检查各变量的取值情况 数值变量:最小值, 最大值,均值,中位数,发现异常值 分类变量:检测变量编码的一致性 其它发现异常的方法:图示法,回归诊断等 资料的整理(1) 数据的分组 分类变量/有序变量 按照实际的类别进行分组 若有必要和合理,可将性质相近的类别合并 数值变量 按照实际的生理,病理,临床和公共卫生意义分组 分位数分组 如:四分位数,五分位数 使用的方便程度/专业惯例分组 例:年龄在某一适宜范围内每5或10岁一组 数据的转换 非正态数据的变量转换 正态性(normality)检验 Univariate过程 Q-Q plot 对数、平方根和倒数变换 分类变量转换为哑变量 统计描述 以统计表、统计图及其他现象化的方式对资料的数量特征及其分布规律进行测定和描述,但不涉及P值、可信区间等由样本推论总体的问题。 统计推断 如何抽样,如何由样本信息推断总体特征的问题。 注意:统计方法的选择要根据收集资料的类型、研究的目的,研究设计类型等具体情况而定。 按照变量类型 计量资料的统计分析 通常可采用平均数、标准差等指标进行描述,并用统计表或图表达统计结果。 可用t检验,方差分析,相关与回归分析等常用的基本统计分析方法。 计数资料的统计分析 可采用率、构成比等指标进行描述,并用频数表表达统计结果。 可用?2 检验,秩和检验、二项分布、Poission分布、相关与回归分析等统计分析方法。 按照研究目的 比较组间结局的差异 可用t检验,?2 检验,方差分析等 分析变量之间的相互关系 采用相关与回归分析 研究事件(疾病)与危险因素的关联 需要计算危险度(OR,RR,AR等) 按照研究设计类型 完全随机设计 两独立样本的t检验或完全随机设计的方差分析 随机区组设计(或配对设计) 配对t检验或随机区组设计的方差分析 普查数据分析思路 统计应调查人数、实际调查人数,描述漏查率和应答率; 描述调查对象的社会人口学特征,如性别、年龄、民族等基本构成。定量变量采用均数±标准差描述,定性变量采用构成比(百分比)描述; 统计调查人群的总体指标,如描述总体的患病率、感染率等频率指标; 按社会人口学特征或暴露与否分组,描述疾病和健康状态相关频率指标;或按疾病有无描述暴露的构成比;并进行分层和对比分析。 抽样调查数据分析思路 一般描述:包括抽样方法、设计样本量、调查样本量、应答率和样本人群的社会人口学特征等。 统计描述: 计算有关统计指标,包括患病率、感染率、暴露率等频率指标及其95%的可信区间,计量资料的均数、标准差或百分位数等。 结合频率指标,通过图表或文字,按时间、地区和人群描述疾病或健康状态的分布。可先按某个因素分层描述,再按多个因素综合描述。 关联分析:对暴露和疾病的关系可作初步的关联分析 如计量资料的比较采用t检验或方差分析(ANOVA),率的比较采用χ2检验或u检验。也可选择适当的自变量和因变量进行多因素分析,关联的统计推断采用χ2检验或Logistic回归分析。 Logistic回归 Logistic回归是一个较好的,目前常用的,控制混杂因素的多因素分析方法。 Logistic回归中y呈现为二值变量形式。如发病与不发病,死与活,成功与失败,阳性与阴性, 等等。当应变量只取二个数值时常记为1与0。 Y=1: 反应,如: 发病,死亡,成功 Y=0:不反应,如:不发病,存活,不成功 Y: 反应变量(response variable),或应变量 X:自变量,协变量(covariate),或解释(explan

文档评论(0)

maritime5 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档