- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1山东大学公共卫生学院SchoolofPublicHealthShandongUniversity流行病与卫生统计学研究所
原始数据的检查在数据分析前需要对原始的流行病学调查研究数据进行一次审查,发现可能存在的错误、遗漏的研究变量取值和其他问题,并采取相应的措施进行处理。若在调查表中发现有缺失的数据,可以通过电话再次询问研究对象、查阅有关的记录、应用储存的血液标本重新检测或再次取样等措施进行补充。若发现逻辑错误,也要及时改正。需要对调查问卷进行编码或者对已编码的问卷进行核查,避免重复和遗漏。
二、选择合适的数据管理和数据分析软件常用的数据管理软件MicrosoftFoxPro、MicrosoftAccess、MicrosoftExcel这些数据管理软件也具有简单的数据分析功能,Excel的数据分析功能更强,不仅可实现描述性统计,还可以做t检验、方差分析、相关回归分析等常用的数据分析软件SAS(StatisticalAnalysisSystem)和SPSS(StatisticalPackageforSocialScience),它们均具有很强的数据分析和数据管理的功能
数据的计算机录入(编号、定义变量名、变量数量化)编号:给每一个调查表或调查对象一个编号以识别录入的数据与调查表或调查对象的对应关系(唯一性)使用阿拉伯数字1、2、3…等给每份调查表按照顺序编号,这样有利于以后对输入的数据进行检查、核对与修改错误。可以给编号以时间、地区、单位、调查对象编号等,如:200501(济南)02(历下)0001(调查对象)
定义变量名称:定义变量名称:命名:可以应用中文、拼音、也可以应用英文,但以使用拼音或英文为好,这样可以方便输入。注意:变量名应简短、易懂易记:如对性别、年龄、身高、体重可以使用gender,age,height和weight进行命名。对名称较长的变量,可以使用简写,如wt表示weight、ht表示height。标记或说明:有些数据管理和分析软件可变量进行标记或说明,避免时间长久了而忘记数据库中的变量名字,如对上述Wt可标记为“weight”。
6变量数量化如果调查表的设计是编码式的,则此步骤可省略,直接将变量取值编码的结果输入计算机。若不是编码式的调查结果,则需要对变量的取值结果进行编码(数量化)。
字符型(charactertype):输入字符如中文或英文数值型(numericaltype):以数值的形式输入日期型(datatype):按照规定的格式输入日期数值逻辑性(logicaltype):常见变量的类型
某些数值变量(numericalvariable)可直接输入变量的取值,如研究对象的身高、体重、血压水平等。除日期型变量外尽量使用数值型变量分类变量(categoricalvariable)及有序变量(ordinalvariable)则可将其取值进行量化,然后再输入计算机010203变量数量化时应注意:
23%Option1如:分类变量——种族注意:分类变量在进行多因素分析时,必须转换成哑变量(dummyvariable),不能直接将前述的取值1、2、3、4、5放入方程中进行分析。白人—1黑人—2西班牙裔人—3亚太裔—4其它种族—530%Option2
有序变量的数量化顺序合理,则可以直接进行分析如:教育程度文盲:0小学:1中学:2高中及中专:3大学:4硕士及以上:512
四、数据的检查与核对(一)检查数据库结构数据库样本数(观测数)、变量数、变量名称及定义等。(二)检查各变量的取值情况查看变量取值范围,有无逻辑错误:如性别应有两个取值,若有2个以上的取值,说明存在错误。对数据变量要检查其最小值(minimum)、最大值(maximum)、均数(mean)、中位数(median),并查看是否有异常取值(outlier),如极小值及极大值。异常值若影响显著时应删除
数据的整理数据分组分类变量:按其原有的分类进行分组,若有必要,可将性质相近或差别不大的类别进行合并。如教育程度。数值变量:按照实际的生理、病理或临床意义分组,如体重指数:低体重、正常体重、超重和肥胖
01按使用的方便程度和专业上惯用的方法分组,如年龄在某一个合适的范围内每5岁或10岁分成一组。按分位数分组,即首先找出四分位数(quartile)或五分位数(quintile)的界值,然后应用这些界值将研究对象平均分成4组(每组25%的研究对象)或5组(每组20%的研究对象)。
您可能关注的文档
最近下载
- 中外海军经典战例分析(中国人民解放军海军工程大学)网课章节测试答案.pdf VIP
- 2025年液化天然气储运工技能证书全国考试题库(含答案).pdf VIP
- 2025年新教科版五下科学全册知识点(重点版).pdf
- 11S405-2 建筑给水聚烯烃类塑料管道安装标准图集.pdf VIP
- YSM组合式空调机组样本.pdf VIP
- 英语自然拼读法有效记忆技巧.docx VIP
- 2023-2024学年广东省八年级(下)期末语文试卷(含详细答案解析).docx VIP
- 河南省鹤壁市小升初语文真题试卷d卷.doc VIP
- 实验初中德育工作行事历.xls VIP
- GB50210-2018 建筑装饰装修工程质量验收标准.doc VIP
文档评论(0)