- 1、本文档共67页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医学科研数据的整理与分析 公共卫生学院 薛 萍 主要内容 第一节 科研数据分析前的准备工作 主要检查内容: 有无缺失(漏填)数据。 有无字迹不清。 有无用错单位的数据。 有无数据超出范围。如年龄超出入组标准的允许范围。 有无不合逻辑数据。如舒张压大于收缩压。 原始记录的修改: 发现错误应当由研究人员在原始记录上修改。 修改时不可覆盖原数据,以便以后了解。 一般用一条细线条划过原来的数据,写上正确数据,修改者必须在修改处旁边签名并写明修改日期。 二、数据的计算机录入 常用的数据管理软件有: Microsoft FoxPro、Microsoft Access、 Microsoft Excel 应用广泛的数据分析软件有: SAS 和 SPSS 二、数据的计算机录入 录入数据之前有要做: 给每一个对象一个编号以识别录入的数据与对象的对应关系 给输入的变量定义名称 需要对变量的调查结果进行数量化 数据的双份输入: 为避免输入错误,由2名输入员独立地对同一批数据输入,由此应该形成2个相同的数据文件。 数据的计算机检查 当2份数据完全一致后,应当再进行数据的计算机检查,即由数据管理人员编写检查程序并检查,检查内容主要是范围检查和逻辑检查。 运行检查程序可以检查出在目视检查时没有查出的超出范围、不合逻辑和各变量数据间互相矛盾的数据。 对于检查出来的错误,需再次送往研究者进行改正。数据管理人员以改正后的数据再次更正数据文件,如此反复,直至再也找不出错误。 三、缺失及可疑数据 缺失数据是指其测量结果缺失。 例如在问卷调查时遗漏出生日期和年龄,调查结束后又无法补救而使个别研究对象的年龄成为缺失数据;血脂或血糖因为血清量不足或研究对象拒绝采血而导致某些研究对象实验室的检测结果成为缺失数据。 可疑数据的处理 过大或过小的数据称为可疑值。可疑值可能是测定值随机波动的极度表现,它虽与其它数据相差较远,也可能同属一个总体。 发现可疑值后,首先应从专业、技术与操作方面进行检查,寻找可能发生失误的原因。若查明属于粗枝大叶、中途条件改变、未遵守操作规程、仪器或试剂失灵等,则应舍弃该可疑值。若进行认真检查,未发现可以解释的原因,则应以统计方法判断取舍。 例:在一个滴眼药的临床试验中,入选者58人,其中3 例失访,另有5 例因未能坚持定期随诊而被淘汰。作者以50 例计算不良反应率。结果,国产制剂组30 例,不良反应率为13/30=43.3%。进口制剂组20 例不良反应率为2/20=10% 。作者说:“患者失访及淘汰的8例中,主要原因之一是点药后疼痛感明显”。 显然,这8例都曾用药,而且反应不良,应该参加不良反应的分析。由于排除了这8 例,大大地缩小了不良反应率。由于作者未能说明这8例各用的是什么药,因而,我们也无法计算这2 种药真正的不良反应率。作者的结论为:“药物的不良反应以疼痛为主,但大多数患者均能忍受”。这一结论显然是不够确切的,因为太多的人不能忍受。 (一) 数据的转换 偏态分布资料数据转换 数据变量转换的方法很多,可以根据数据的分布特征,选择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒数变换等。 数据转换的目的: 使偏态分布接近正态分布; 消除多组资料均数与标准差的正比关系。多见于用百分比做观察结果的数值变量资料。 资料类型的转换 五、数据的整理 第二节 科研数据分析方法的选择 统计描述 样本不是过小时,按正态分布规律,平均数减3个标准差仍应是正数。 此例应采用适合偏态分布的中位数和四分位数间距。 统计推断 统计推断:区间估计 ▲概念:根据样本统计量,按一定的可信度计算 出总体参数很可能在的一个数值范围,这个范围称为参数的可信区间。 区间估计 总体均数(μ)的100(1-α)%可信区间(CI): (1)已知总体标准差σ,按正态分布原理,计算公式为: (2)σ未知,n较小,按t分布原理计算: (3)σ未知,n足够大(如n>100),按正态分布原理计算: 总体率的可信区间估计 统计推断:假设检验 什么是假设检验? 已知健康成年男子脉搏均数为72次/min 。某医生随机抽查了25名某病成年男性病人,求得脉搏的均数为75.5次/min ,标准差为5.0次/min ,能否据此认为该病病人的脉搏均数与一般健康成年男子的脉搏均数有差别? 假设检验 这里样本均数与总体均数的差异有两种可能: ①差异仅仅是由抽样误差引起的。 ②差异不仅仅是由抽样误差引起的,还有疾病的影响。 假设检验就是要回答“差别是否仅仅由于抽样误差所引起”这样一个问题。 应根据
文档评论(0)