第9讲 警惕统计陷阱.ppt

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第9讲 警惕统计陷阱

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 解读: 统计基数不同:2010年全国铁路共发送旅客16.76亿人次,全国民航旅客运输量则为2.68亿人次。 统计口径不同:铁路交通事故数据绝大多数都是路外事故和生产事故,而不是行车事故,即真正因行车事故死亡的车内乘客只占一部分。而航空运输只统计飞行事故,不包含地面事故和生产事故。 直接比较各类交通工具的意外事故数量来判断旅途安全情况是不正确的,应该通过询问每100万乘客里程的遇难人数,并比较这些人数才能确定哪种出行方式的风险最大。 小结: 当无法证明某件事时,通过证明别的事情,并假装它们是一回事,因此产生混淆。 不完全匹配的资料很容易糊弄人。 许多不相匹配的数据不是故意欺骗,而是被报道故意歪曲(如:当兵更安全?)。 通过照片对比也可以制造不匹配(如减肥效果对比)。 8. 相关关系的误解 Post hoc rides again 示例1: “目前吸烟大学生的学习成绩差,与目前不吸烟大学生有显著性差异。应重视吸烟行为对大学生健康的危害,积极开展健康教育以及对大学生吸烟的行为进行干预。” ——印爱平等:《大学生吸烟状况调查》,《中国实用医药》2007年第22期 解读: 样本容量是否足够大?抽样过程是否科学合理?相关关系是否确实十分显著? 两个事物之间的关联关系并不能用于说明其中一个将引起另外一个的变化。 谬误:如果b紧跟着a出现,那么a形成了b 抽烟与低分同时出现→抽烟导致低分 会不会是相反的作用关系?因为成绩不理想促使学生变得爱抽烟,依次释放压力。 两个因素并不互为因果,而可能同为第三个因素的产物。 也许性格与分数相关,也许内向性格的学生更爱抽烟。 小结: 一种相关是由偶然性产生的 小概率发生的事情,可以用很小的样本证明 一种相关是互为因果 收入越多,买的股票越多;买的股票越多,收入越多。 一种相关是所有变量相互间没有影响,但是存在显著的关系 抽烟多与成绩低之间的关系,但可能涉及第三因素:性格。 小结: 超过相关关系的数据范围而得出的结论 雨多,谷物长得好;但是要是下连续下暴雨呢? 不能超过“度” 一种趋势通常不是一对一的理想关系 有些可以证明是正相关,但是同样也可以证明其毫无意义 数据是真实的,但是未必能得出一个可以证实的结论,也许完全建立在假设之上。 在胡乱使用相关性时,要分辨这种相关是事件变迁的产物或时代趋势的产物。 9. 如何反驳统计资料 How to talk back to a statistic 其一,谁说的? 首先寻找有意识的偏差。 当提到权威人士的时候,应看内容是不是权威的,而不是仅仅扯上大名。 其二,他是如何知道的? 看样本是否有偏? 样本是否足够大?以保证结论值得信赖 关于数据的来源我们需要注意五点: (1)数据发布机构是否权威(代表性)? 国研网:行研报告,各类数据。 国家统计局数据库:宏观数据、金融、教育、行业数据等,包含国家一级、31个省以及200多个市的数据。 《中国统计年鉴》:历年统计年鉴以及普查数据、专题数据等。 (2)是否发布机构的原版文件(可信度)? (3)数据采集面向的对象(调研主体)? (4)数据是一手数据还是二手数据(时效性、相关性)? (5)数据采集方式是什么?(投票方式) 在网络上进行投票还是在现实中分发问卷有很大的不同,两者都有很多细节点需要注意。 网络投票:如何防止机器人、恶意投票以及UI的设计是关键。 现实问卷:如何设计题目(逻辑性、完整性、非诱导性)以及投放方式(时间、地点、对象)是关键。 其三,遗漏了什么? 信息发布者和信息本身具有利害关系,需要关注一下。 很多信息缺乏比较而失去意义。 有时仅给出百分数却没有原始数据也能造成欺骗。 选择数据的产生的时期,也会产生误导 大萧条后,利润指数增长超过工资,工会因此要求涨工资。实际上,大萧条时,利润降到了最低。 有时文章遗漏引起变化的原因,而使读者误解其他因素是引起变化的原因。 其四,是否有人偷换了概念? 相关关系变成因果关系。 很多人标榜第一,但是从没有说清是哪个具体领域。 其五,这些资料有意义吗? 建立在未经证实的假设之上有意义吗? 已发生的事情都是事实,而未来的趋势都是预测,暗含的条件是所有条件都相同,现在的趋势将继续下去。 以下说法存在什么问题? 成龙的格力空调广告说:“我要省电30%。” 在美国与西班牙交战期间,美国海军的死亡率是9‰,而同时期纽约市居民的死亡率是千分16‰。后来海军征兵人员就用这些数据来证明参军更安全。 英国新赫布里群岛土著居民的信条:身上的跳蚤会带来健康。因为通过几个世纪的

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档