大数据处理技术.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据处理技术大数据处理技大数据处理技术大数据处理技术

HBase是如何工作的呢? 两种类型的HBase节点: Master管理节点和RegionServer分区节点 ?master(只有一个管理节点) ——管理集群的操作?任务调度、负载平衡、数据分裂 ——它不负责读/写数据 ——通过ZooKeeper and standbys(备用服务器)实现高度可用性 ?RegionServer(一个或多个) ——存表格的节点:执行读取、缓冲写 ——与客户端直接点对点进行读/写 HBase表 ?一个HBase集群是由任意数量的用户定义的表组成 ?表模式只定义列族 ——每个列族包含任意数量的列 ——每一列包含任意数量的版本 ——列只在插入时才产生,空值不占用空间 ——除了表名和列族名外,所有的数据都是字节存储 ——表中的行已被排序,顺序存储 ——列族里列也被排序,顺序存储 (表、行、列族、列,时间戳)?值 HBase表数据结构 ?一张表里行的映射与其列族是一个有序映射关系 ——SortedMap(row?list(ColumnFamilies)) ?一个列族里的列名与版本值是一个有序映射关系 ——SortedMap(column?SortedMap(Versioned Values)) ?一列里时间戳与值是一个有序映射关系? ------SortedMap(Timestamp ?Value) HBase表是一个三维有序的映射表 ?SortedMap(RowKey,List(SortedMap(Column,?List(?SortedMap (Timestamp, Value)) ) )) – rowKey (ASC) + columnLabel(ASC) + Version (DESC) -- value? 行键升序 列族:列名 时间戳 value row=row0, column=anchor:bar, timestamp=1174184619081 …… row=row0, column=anchor:foo, timestamp=1174184620720 row=row0, column=anchor:foo, timestamp=1174184617161 row=row1, column=anchor:bar, timestamp=1174184619081 row=row1, column=anchor:foo, timestamp=1174184620721 row=row1, column=anchor:foo, timestamp=1174184617167 row=row2, column=anchor:bar, timestamp=1174184619081 row=row2, column=anchor:foo, timestamp=1174184620724 row=row2, column=anchor:foo, timestamp=1174184617167 特点 良好的压缩比。由于大多数数据库设计都有冗余,如此一来,压缩比非常高,把40多M的数据导入infobright,没想到数据文件只有1M多 列上的计算非常的快。 方便MapReduce和Key-value模型的融合 读取整行的数据较慢,但部分数据较快 HBase Regions ?表由任意数量的Regions 组成 ?regions用startKey和endKey来标记 ——空表: (Table, NULL, NULL) ------两个region表: (Table, NULL, “MidKey”) and (Table, “MidKey”, NULL) ?一个region放在一个RegionServer节点上 ?多个region,可能放在一个不同的节点上,每一个region由若干个HDFS files and blocks组成,每个HDFS files and blocks由Hadoop复制,保存多个副本。 HBase架构 ?region信息和位置信息存储在特殊目录表 ----ROOT表包含元数据表的位置 ----.META表包含user regions的模式(结构说明)和位置信息 ?-ROOT的位置存储在zookeeper上,-这是“引导”区 ?zookeeper节点用于协调/监控 ——引导集群选举一个节点作为master节点 ——检测RegionServer节点故障 的临时节点(故障信息传递给master处理) HBase关键特性 ?数据的自动分区——数据的增长,region是自动分裂 ?数据透明分布 ——

您可能关注的文档

文档评论(0)

cxiongxchunj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档