网站大量收购独家精品文档,联系QQ:2885784924

大数据时代和大数据背景下的科研转变.pptVIP

大数据时代和大数据背景下的科研转变.ppt

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代和大数据背景下的科研转变 大数据的概念 数据海量化和数字化 数据量的爆发式、几何式增长:从人类文明出现到2003年,人类总共才产生了5EB(ExaBytes,1EB=10亿GB)的数据,但是当前的人类两天内就创造出了相同的数据量,全球90%的数据都是在过去两年中生成的,到2020年全球数据使用量将大概需要376亿个1TB的硬盘进行存储。 越来越多的数据存储为数字数据:在2000年,数字存储信息仍只占全球数据量的四分之一;而在2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据;到2013年,世界上存储的数据预计能达到约1.2ZB(1ZB=1000EB),其中非数字数据只占不到2%。 数据分析和管理效率的大大提高 模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数据。 数据数字化和云计算技术的发展使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算机可以读取的数字数据,使得存储和处理这些数据变得既便宜又容易,从而大大提高了数据管理效率。 大数据时代的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据, 深入探索现实世界的规律, 获取过去不可能获取的知识, 得到过去无法企及的商机。 大数据时代数据处理思维的三个转变 全数据模式,而不再依赖于随机抽样 很长一段时间以来,准确统计和分析大量数据对我们而言都是一种挑战,比如人口普查。通常我们只能收集少量数据进行分析,称之为抽样分析。大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,使我们能够更清楚地看到了样本无法揭示的细节信息并进行新的分析。 不再热衷于追求精确度 追求精确度的思维方式适用于掌握“小数据量”的情况,此时必须确保记录下来的数据尽量精确。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。拥有了大数据, 我们不再需要过于追究细节,只要掌握大体的发展方向即可。 比如计算小商品的营业额和计算国民生产总值。 不再执著于寻找因果关系 长久以来,我们的研究总是热衷于追寻现象之间的因果关系。而在大数据时代,我们无须再紧盯事物之间的因果关系,应该寻找事物之间的相关关系。 如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的药理机制就没有这种治疗方法本身来得重要。 2011年, 美国个人消费信用评估公司FICO提出了“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药, 包括一些看起来有点怪异的变量。 比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。 有私家车和使用抗生素并没有因果关系,这只是一种相关关系。 大数据的应用:谷歌流感预测 谷歌流感预测(/flutrends)早在2008年即已推出,原理是采用流感趋势系统监测全美的网络有哪些信誉好的足球投注网站,寻找与流感相关的词语,比如“咳嗽”和“发烧”等,并利用这些有哪些信誉好的足球投注网站结果来提前9个星期预测可能与流感相关的就医量,不像疾控中心一样要在流感爆发一两周之后才可以做到。 2009年在H1N1爆发几周前,谷歌公司的工程师们在《Nature》上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。 大数据的应用:PCORnet 大数据的应用:百度疾病预测 百度的疾病预测(/disease/)于2014年6月上线,目前可以对全国331个地级市,2870个区县的12种疾病进行未来趋势的预测,某些城市甚至已经细化到具体的商圈。目前该产品提供包括流感、肝炎、肺结核、高血压、心脏病等疾病的活跃度、流行指数,以及各种疾病相关的城市和医院排行榜,用户可以查看过去15天以内的数据和未来7天的预测趋势。 预测原理:流行病的发生和传播有一定的规律性,与气温变化、环境指数、人口流动等因素密切相关。每天网民在百度有哪些信誉好的足球投注网站大量流行病相关信息,汇聚起来就有了统计规律,经过一段时间的积累,可以形成一个个预测模型,预测未来疾病的活跃指数。 大数据时代下的医学科研 临床医学资源发掘、收集、整理和利用(标准化、科学化)。 大样本、多中心的临床研究(病因、诊断、治疗及药物开发)。 依托临床信息的生物医学资源的整理、利用及研究(基因、蛋白及代谢)。 大数据研究成果:阿奇霉素与心血管死亡风险 分析了田纳西州医院所有患者的数据发现,在疗程5天的阿奇霉素治疗中,心血管(CV)死亡风险小幅增加。 研究者分析了1992(阿奇霉素首次引入美国的时间)~2006年间田纳西州医疗补助计划中30~74岁患者的数据。

文档评论(0)

junjun37473 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档