大数据交流精要.pptx

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据交流精要

数据 . 洞察 . 价值 杨加元 HPE ES September 29, 2016 企业数字化主题的相关技术 新基础设施:云、网、端 互联网作为一种基础设施的广泛安装 “云”是指云计算、大数据基础设施。生产率的进一步提升、商业模式的创新,都有赖于对数据的利用能力,而云计算、大数据基础设施像水电一样为用户便捷、低成本地使用计算资源打开方便之门 “网”不仅包括原有的“互联网”,还拓展到“物联网”领域,网络承载能力不断得到提高、新增价值持续得到挖掘。 “端”则是用户直接接触的个人电脑、移动设备、可穿戴设备、传感器,乃至软件形式存在的应用。“端”是数据的来源、也是服务提供的界面。 新生产资料:数据 从IT时代正在步入 DT(Data Technology)时代 45% VS 4% 云服务增长率:45% 传统 IT整长率:4% 战略资源:大数据 基础设施:互联网 核心竞争力:云计算 互联网、云计算、大数据 用户 数据 系统 什么是云计算 一个定义 通过网络接入弹性可扩展的物理或虚拟资源池,并可以以按需、自服务的方式对资源进行部署和管理的服务模式 三种服务模式 SAAS(软件即服务) PAAS(平台即服务) IAAS(基础设施即服务) 三种部署方式 私有云 共有云 混合云 什么是大数据? 大数据的定义 原始版本 以大数据的三个特征数量(Volume) 种类(Variety) 速度(Velocity) 定义大数据,是最为人所知,且被公认的一种。 大数据技术 用以区分数据 “信号”数据 暗数据 新瓶装旧酒 我们除了面对更大量(Volume)更多种类(Variety)、更快速(Velocity)的数据以外,一批新技术应运而生,尤其是用以存储和处理数据的开源技术,如Hadoop、NoSQL等。 学习和使用这些技术和工具,需要一个有别于传统技术的名称,最终,将其称为“大数据”。 从技术角度定义“大数据”难免模糊,人们也尝试着从业务角度来定义“大数据”,用以区分数据。 一种尝试是用Transactions、Interactions和Observations定义。 另一种则更加明了:Process-Mediated Data,Human-Sourced Information Data, 以及Machine-Generated Data。 从商业价值角度更为直接的定义: 传统的事务性数据,当我们记录下他们的时候,要做什么/改变什么已经太晚了(它已经发生)。现今,企业可以利用新的“信号(Signal)”数据,预测什么将要发生,而因此早些做出改进。 先前由于技术限制而被我们忽略或无法进行的数据分析。或将其称为“暗数据”(Dark Data)。 这是最为懒惰和偏激的一种定义。认为“大数据”只是将原有的BI分析或商业智能重新冠以了一个高大上的名字。本质没有区别。 大数据的特征 大量(Volume) 存储大,计算量大 多样(Variety) 来源多,格式多 速度(Velocity) 增长数据快 处理速度要求快 价值 (Value) 浪里淘沙却又弥足珍贵 大数据技术要解决的技术难题 How to get the data (如何收集数据)? How to store the data (数据如何存储)? How to process the data (数据如何计算处理)? How to visual the data (数据如何呈现)? Scale up – 纵向扩展 纵向扩展,也就是升级硬件,提高单机性能,如增加内存,增强CPU 用更高性能的磁盘(如固态硬盘) 优点: 简单易行 缺点: 单台服务器的扩展空间有限,CPU、内存、磁盘再怎么扩展也是有限的,无法无限扩展。 成本高 Scale out – 横向扩展 横向扩展,用多台节点分布式集群处理 (通过增加节点数量提高处理能力,这里说的节点指的就是一台计算机),将复杂的任务分摊,通过协作来实现单节点无法实现的任务。 优点: 成本相对低(可采用普通PC服务器) 易于线性扩展 缺点: 系统复杂度增加,我们要将我们的应用部署到每一个节点上面,而多个节点协同工作时就要考虑以下几个问题 如何调度资源 任务如何监控 中间结果如何调度 系统如何容错 如何实现众多节点间的协调 海量数据如何存储- HDFS HDFS(Hadoop Distributed File System) A distributed file system Redundant storage Designed to reliably store data using commodity hardware Designed to expect hardware failures Intended for large files Designed f

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档