大数据技术及产业应用.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1 大数据问题及技术与产业应用 清华大学苏研院 大数据处理中心 海量数据 2 12+ TBs of tweet data every day 25+ TBs of log data every day ? TBs of data every day 数据分析复杂度 大数据Big Data 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合 大数据 = “海量数据”+“复杂类型的数据” 涉及各个行业领域 电力、电信、经贸、教育、医疗、金融、石油、民航 天文、气象、基因、医学、物理、互联网 与人类社会活动有关的网络数据 4 大数据特征 5 不同结构的复杂数据:关系型数据、日志和文本 数据流量大:数据处理从批处理转向流处理 大容量:从TB、PB到ZB 数据即资源,体现价值,数据中能挖掘出价值信息 Variety: Velocity: Volume: Value: 数据==价值 6 数据正在成为各行各业,乃至每个人最关心、最有价值的东西 医生需要了解病人病历以及典型病人治疗方式相关数据,以便对症治疗; 疾病预防中心需要了解疫情爆发、扩散的相关数据,以便做好疫情防御; 医院需要病床、药品及季节行流行病相关数据,以便统一部署医疗设施; 股票经济人需要对股票行情数据分析,判定下一个市场投资热点 ; 公司供应链需要了解产品进销存数据,以便下一步备料生产; 企业经营者需要对市场数据进行分析,以便制定企业下一步的市场策略; 投资者需要靠数据进行投资前景、可行性进行分析评估,确保投资收益; 民航、酒店需要了解旅客的出行规律,以便更好的服务客户 ; 商场、商家需要了解顾客的生活习惯、购物心理,制定最有效市场推广方式; 商业网站则需要了解用户的网络浏览方式,以便推出更贴切客户习惯的产品; 癌症研究者需要了解分子结构和癌分子的绑定数据,以便研制新型的抗癌药; 石油勘探需要需要了解地质数据并分析建模; 气象工作者需要了解海洋气候数据,以便发布及时准确发布; 大数据蓝海 7 气候信息 市场信息 国家战略 投资信息 经济信息 生活咨询 贸易信息 旅游咨询 计算 应用 分析 加工 个人生活相关 (投资理财、居家生活、旅游出行) 企业发展相关 (投资前景、市场战略、市场先机) 区域经济发展 (区域规划、城市发展、发展先机) 国家发展战略 (全球经济、国计民生、政策法规) 大数据影响到我们生活周边的各个方面。 大数据处理的意义 8 海外市场环境 美国奥巴马政府2012年推出了“大数据研究和 发展倡议” ,并投资2亿美金支持大数据的研发, 说明大数据已成为信息科技领域的热点。 资本市场高度关注大数据技术型企业的发展 风投机构Accel Partners设立1亿美元专项基金 大数据分析公司Splunk,首日上市IPO即上涨109% 大数据软件提供商Birst公司今年已经从红杉资本等机构获得了2600万美元的投资 为开源大数据技术Hadoop的商业版本提供销售和支持服务的Cloudera获得7500万美元投资 MapR、10Gen、DataStax等大数据软件服务商近期都完成了千万美元级的融资。 9 市场预测 10 根据Wikibon最近发布的报告,大数据市场正处在井喷式增长的前夕,未来五年全球大数据市场价值将高达500亿美元。 国内云计算及大数据市场已经初步具备发展态势,据研究表明,大数据市场规模也将从2010年的167亿元增长到2013年的1174亿元,年均复合增长率达到91.5%。 市场规模 11 2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。 大数据问题 12 大数据技术 13 行业大数据应用的挑战 14 清华大学大数据产品及成果 15 行业大数据解决方案 云燕:大规模任务流程管理系统 应用定制 复杂流程管理 自动容错机制 可视化 云鹰: 大规模任务调度系统 轻型高效的任务调度:每秒分发几千个任务 高可扩展性支持:上千万任务、数十万CPU 跨数据中心资源协同使用 自动负载均衡 云龙:云资源管理监控系统 集中统一的计算平台:资源共享,弹性调度 虚拟镜像:自动应用环境部署 完善的监控及日志功能 16 云燕系统架构 17 云燕解决海量数据计算中数据的多样复杂性、系统的异构性、系统流程管理问题; 自动实现并行化的运行,能够运行于集群、网格、超级计算机及云平台上。 管理调度160000个CPU核 18 应用效果:医药学靶点分析 19 CPU核: 118784 任务数: 934803 运行时间: 2.01 小时 CPU年: 21.43 利用率: 持续: 99.6% 总体: 78.3% 吞吐量 (任务/秒) 完成任务数 处理器数目 时间 (秒) 处理器

您可能关注的文档

文档评论(0)

trity_522 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档