第8章 大数据时代.ppt

  1. 1、本文档共164页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Google File System GFS的设计架构 一个GFS集群包含一个主服务器和多个块服务器,并被多个客户端访问。 文件分成固定大小的“块”。每个块在创建时都由主服务器分配一个固定不变的64位句柄唯一标识。 块服务器把块作为Linux文件存储在本地磁盘上,并根据指定的块句柄和字节范围对数据块进行读写操作。 Google File System GFS的设计架构(续) 主服务器维护所有文件系统的元数据,包括名字空间、访问控制信息、文件到块的映射信息以及块当前的位置。此外,主服务器还控制其它系统级的活动。主服务器周期性地与块服务器通信,以下达指令和收集状态。 GFS客户端代码被嵌入到每个应用中。它实现了文件系统API,实现主服务器与块服务器的通信从而代表应用实现读写操作。客户端与服务器交互从而实现元数据操作,但所有的数据操作都通过直接与块服务器交互而完成。 MapReduce MapReduce是一种针对超大规模数据集的编程模型和系统 用MapReduce开发出的程序可在大量商用计算机集群上并行执行、处理计算机的失效以及调度计算机间的通信 MapReduce的基本思想 用户写的两个程序:Map和Reduce 一个在计算机集群上执行多个程序实例的框架 MapReduce MapReduce程序的执行过程 BigTable BigTable是一种用来在海量数据规模下(例如包含以PB为单位的数据量和数千台廉价计算机的应用)管理结构化数据的分布式存储系统。 应用 Google地球 网页索引 RSS阅读器 … BigTable 每个BigTable都是一个稀疏的、分布式的多维有序图,按行键值、列键值和时间戳建立索引 典型数据中心:Hadoop 什么是Hadoop? Apache开源组织的一个分布式计算开源框架 用于在大型集群的廉价服务器设备上运行数据密集型分布式应用程序 在早期实际上是Google文件系统与MapReduce分布式计算框架及相关IT基础服务的开源实现 Hadoop包括多个子项目 HDFS、 MapReduce、 HBase 、Chukwa、Pig、ZooKeeper等 HDFS Hadoop Distributed File System 数据中心的研究热点 2006年Google在数据中心项目上的花费为19亿美元,而2007年该项支出增加到24亿美元。 Google在俄勒冈州的数据中心有近100兆瓦的功率,满负荷运行时消耗的电力基本上和纽卡斯尔(Newcastle)一个城市所有家庭的用电量加起来一样多。 研究热点:如何在保证服务质量的前提下降低成本? 数据中心的成本构成 基础设施部分包括能源系统、降温系统、各种防火设备、安保设备等。降低这一部分成本往往涉及到机械设备制造技术或政策优惠等因素,与计算机学科的关联程度相对较低。 我们分别从服务器,网络设备,能源三个方面对造成高成本的原因和目前的解决方法进行简要介绍。 服务器成本 服务器 网络设备 能源 服务器的实际利用效率较低 分配到各服务器的应用不能完全利用某些组件 对应用需求的预测比较难,无法做到按需分配 为了提高系统的可靠性,一般都留有冗余设备 提高服务器利用率的关键在于及时应对需求的动态变化 网络设备成本 服务器 网络设备 能源 主要来源 交换机、路由器、负载均衡设备 传统的数据中心使用树形结构,核心交换机和路由器构成流量瓶颈,且造价昂贵 研究热点:新的数据中心网络结构 以交换机为中心的多层树形结构:例如Fat-Tree 以服务器为中心的互联结构:例如DCell 能源成本 服务器 网络设备 能源 研究热点 降低服务器工作能耗 降低同等性能设备能耗 提高同等能耗设备性能 可调整负载的服务器 减少降温系统能耗 精细、精准的温度控制 集装箱式模块化数据中心 数据中心能耗构成 第一V是Variety,海量数据有不同格式,第一种是结构化,我们常见的数据,还有半结据化网页数据,还有非结构化视频音频数据。而且这些数据化他们处理方式是比较大的。 很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯的语法或句义 第二点就是Volume,量比较大,我们有一些用户化每秒就要进入很多数据,很多客户内部都有几批数据,还有下面淘宝都是几PB数据,所以PB化将是比较常态的情况。 非结构化数据的超大规模和增长,占总数据量的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍 第三个是Velocity,因为数据化会存在时效性,需要快速处理,并得到结果出来。比如说,一些电商数据,今天的信息不处理没有结果化,将会影响到今天捕获很多商业决策。 立竿见影而非事后见效 第四个是Value:大量的不相关信息,不经过处理则价值较低,属于价值密度底的

文档评论(0)

文档精品 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档