李国杰谈大数据在科学领域的应用.pdf

李国杰谈大数据在科学领域的应用.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
李国杰谈大数据在科学领域的应用.pdf

专题 第 8 卷  第 9 期  2012 年 9 月 大数据研究的科学价值 李国杰 关键词:大数据 数据科学 第四范式 中国科学院计算技术研究所 近年来, “大数据”已经成为科技界和企业界 产生的数据越来越多,例如,用电子显微镜重建大 关注的热点。20 12年3月,美国奥巴马政府宣布投 脑中的突触网络,1立方毫米大脑的图像数据就超 资2亿美元启动 “大数据研究和发展计划”,这是 过1P B 。但是,近年来大数据的飙升主要还是来自 继1993年美国宣布 “信息高速公路”计划后的又一 人们的日常生活,特别是互联网公司的服务。据 次重大科技发展部署。美国政府认为大数据是 “未 I D C公司统计,20 11年全球被创建和被复制的数据 来的新石油”,将 “大数据研究”上升为国家意 总量为1.8Z B (102 1 ),其中75%来自于个人 (主要 志,对未来的科技与经济发展必将带来深远影响。 是图片、视频和音乐),远远超过人类有史以来所 一个国家拥有数据的规模和运用数据的能力将成为 有印刷材料的数据总量 (200P B )。谷歌公司通过 综合国力的重要组成部分,对数据的占有和控制也 大规模集群和M apReduce软件,每个月处理的数据 将成为国家间和企业间新的争夺焦点。 量超过400PB ;百度每天大约要处理几十PB数据; 与大数据的经济价值相比,大数据研究的科学 Facebook注册用户超过10亿,每月上传的照片超过 价值似乎还没有引起足够的重视。本文试图对基于 10亿张,每天生成300TB 以上的日志数据;淘宝网 大数据的科学研究 (包括自然科学、工程科学和社 会员超过3.7亿,在线商品超过8.8亿,每天交易数 会科学)谈几点粗浅的认识,希望引起有关领域科 千万笔,产生约20T B数据;雅虎的总存储容量超 技人员的争鸣。 过100PB 。传感网和物联网的蓬勃发展是大数据的 又一推动力,各个城市的视频监控每时每刻都在采 推动大数据的动力主要是企业 集巨量的流媒体数据。工业设备的监控也是大数据 经济效益 的重要来源。例如,劳斯莱斯公司对全世界数以万 计的飞机引擎进行实时监控,每年传送P B量级的 数据是与自然资源、人力资源一样重要的战略 数据。 资源,隐含巨大的经济价值,已引起科技界和和企 数据为王的大数据时代已经到来,战略需求也 业界的高度重视。如果有效地组织和使用大数据, 发生了重大转变:企业关注的重点转向数据,计算 将对经济发展产生巨大的推动作用,孕育出前所未 机行业正在转变为真正的信息行业,从追求计算速 ’ 度转变为大数据处理能力,软件也将从编程为主转 有的机遇。奥莱利 (O Reilly )公司断言:“数据是 下一个 ‘Intel inside ’,未来属于将数据转换成产品 变为以数据为中心。采用大数据处理方法,生物制 的公司和人们。” 药、新材料研制生产的流程会发生革命性的变化, 基因组学、蛋白组学、天体物理学和脑科学 可以通过数据处理能力极高的计算机并行处理,同 等都是以数据为中心的学科。这些领域的基础研究 时进行大批量的仿真、比较和筛选,大大提高科研 8 第 8 卷  第 9 期  2012 年 9 月 和生产效率。数据已成为矿物和化学元素一样的原 学者的主动性可能会较早发挥出来。 始材料,未来可能形成 “数据探矿”、 “数据化 美国政府六个部门启动的大数据研究计划中, 学”等新

您可能关注的文档

文档评论(0)

tangtianbao1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档