第3章 云计算新技术及其发展趋势.pptxVIP

第3章 云计算新技术及其发展趋势.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第3章 云计算新技术及其发展趋势

3.1大数据技术3.2人工智能技术3.3云计算安全技术学习要点

3.1.1 大数据技术及现状第四次科技革命方兴未艾,一场围绕“云、大、物、智”等新兴信息技术的革命正在如火如荼地展开,全球主要经济体都已将数据开放作为发展战略,颁布了相关的数据开发战略,以促进未来经济发展。大数据技术起源于谷歌公司在2004年前后发表的3篇论文,俗称“大数据时代”的“三驾马车”,分别介绍了谷歌文件系统(GoogleFileSystem,GFS)、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable,现在的大数据技术和框架也多基于这3项技术展开。大数据技术的思路不是聚焦在如何提升单台计算机的性能,而是先部署一个大规模的服务器集群,再通过分布式的方式将海量数据存储在这个集群上,然后利用集群上的所有服务器进行数据计算。大数据技术特别适合存储和计算TB、PB规模及以上的大数据文件。除了顺应国家战略需求,在数据化、信息化的时代,经营者本身也需要进行一系列思维变革,以响应时代的特点。数据发展历程

3.1.1 大数据技术及现状目前业界对大数据尚无公认的定义,但大多都试图从大数据的特征出发给出其定义。总的来看,目前业界对大数据的定义有“4V”的特点:体量大(Volume)、类型多(Variety)、速度快(Velocity)、价值密度低(Value)大数据的定义和特点维基百科对大数据的定义研究机构Gartner对大数据做出的定义“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据分析相比传统的BI、OLAP或数据仓库应用,具有数据量大、查询分析复杂等特点。大数据是指利用传统数据处理应用软件不足以处理的规模大或结构复杂的数据集。

3.1.1 大数据技术及现状相比传统的数据分析,大数据分析在多个方面发生了较大的改变。大数据分析与传统数据分析对比从数据规模来看,传统数据分析大多使用数据库存储数据,数据处理规模以MB为单位,而大数据的处理规模则以TB、PB为单位。如果将“鱼”比作数据,传统数据分析如同“在池塘中捕鱼”,大数据分析则如同“在大海中捕鱼”。数据类型从原来的单一的结构化数据向非结构化数据、半结构化数据等转变。传统数据分析处理工具比较单一,适用性较强,同时也都是先有模式后有数据的处理关系。而大数据分析没有一套通用的工具,工具随着处理数据的变化有可能需要更换,同时数据处理的模型也会随着数据的增多而不断演变。

3.1.1 大数据技术及现状Hadoop生态系统中的组件基本上都是为了处理超过单机尺度的数据而诞生的,Hadoop大数据生态系统架构是目前应用极为广泛的分布式大数据处理框架,具备高可靠、高效、可伸缩等特点。Hadoop大数据生态系统架构组件如下。Hadoop大数据生态系统数据存储01OPTION分布式文件系统HDFS:大数据首先需要解决的问题是数据存储。Hadoop分布式文件系统是整个Hadoop体系的基础,负责数据的存储与管理。HDFS的设计本质上是为了让大量的数据能横跨成百上千台廉价机器进行存储,具有高容错性的特点。HDFS适合批量处理数据,而不是交互式处理数据。HDFS采用了主从结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成。分布式列存储数据库HBase:HDFS是Hadoop默认的持久化存储层,而HBase是一种面向列的分布式数据库,适用于结构化数据的存储,不过HBase底层仍然依赖HDFS作为其物理存储。与适合用来对一段时间内的数据进行分析查询的数据仓库Hive相比,HBase更适合用来对大数据进行实时查询。

3.1.1 大数据技术及现状数据计算02OPTION图计算图计算针对的是大规模图结构数据的处理场景,主要技术包括GraphX、Gelly、Giraph、PowerGraph等。批处理批处理计算针对的是海量数据的批量处理场景,主要计算引擎包括MapReduce等。批处理计算通常对以“天”为单位产生的数据进行一次计算,然后得到分析计算的结果。查询分析计算针对的是大规模数据的存储管理和查询分析场景,主要技术包括Hive、Impala、Dremel,此外还有针对NoSQL类型的HBase、Teradata、Cassandra等数据库技术。流计算流计算针对的是需要实时计算处理流式数据的场景,主要技术包括Spark、Storm、Flink等。因为流计算要处理的是实时产生的数据,而不是历史数据,所以这类计算也被称为大数据实时计算。

3.1.1 大数据技术及现状数据计算02OPTION分布式离线并行计算引擎MapReduce:MapReduce是支持海量数据离线并行处理的计算引擎

文档评论(0)

释然 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档