《基于新信息技术的Hadoop大数据技术》 课件 项目10--12 HBase集群安装配置、 Sqoop安装部署、 Flume的安装与使用.pptx

《基于新信息技术的Hadoop大数据技术》 课件 项目10--12 HBase集群安装配置、 Sqoop安装部署、 Flume的安装与使用.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Hadoop大数据技术——HBase分布式数据库

湖南软件职业技术大学HBase概述

HBase是什么HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,利用HBase技术可在廉价的PCServer上搭建大规模结构化存储集群。HBase是GoogleBigTable的开源实现,与Google的BigTable利用GFS作为其文件存储系统类似,HBase则利用Hadoop的HDFS作为其文件存储系统。Google运行MapReduce来处理Bigtable中的海量数据,而HBase则利用Hadoop的MapReduce来处理HBase中的海量数据。GoogleBigtable利用Chubby作为协同服务,而HBase则利用Zookeeper作为协同服务。湖南软件职业技术大学

无模式:同一个表的不同行可以有截然不同的列。面向列:HBase是面向列的存储和权限控制,并支持列独立索引。容量巨大:单表可以有百亿行、数百万列。高可靠性:HBase提供了预写日志(WAL)和副本(Replication)机制,防止数据丢失。稀疏性:表可以设计得非常稀疏,值为空的列并不占用存储空间。扩展性:HBase底层文件存储依赖HDFS,它天生具备可扩展性。高性能:底层的LSM(Log-StructuredMergeTree)数据结构和RowKey有序排列等架构上的独特设计,使得HBase具备非常高的写入性能。HBase的特点

湖南软件职业技术大学HBase模型及架构

HBase逻辑模型湖南软件职业技术大学HBase中的一个表有若干行,每行有很多列,列中的值可以有多个版本,每个版本的值称为一个单元格,每个单元格存储的是该列不同时间的值。HBase表的逻辑模型如图所示。

表HBase?是一种列式存储的分布式数据库,其核心概念是表(Table)。与传统关系型数据库一样,HBase?的表也是由行和列组成,但?HBase?同一列可以存储不同时刻的值,同时多个列可以组成一个列簇(ColumnFamily),这种组织形式主要是出于HBase存取性能的考虑。行健Rowkey?既是?HBase?表的行键,也是?HBase?表的主键。HBase?表中的记录是按照RowKey的字典顺序进行存储的。在HBase中,为了高效地检索数据,需要设计良好的Rowkey来提高查询性能。因为Rowkey?会被冗余存储,所以长度不宜过长,Rowkey?过长将会占用大量的存储空间同时会降低检索效率。其次?Rowkey?应该尽量均匀分布,避免产生热点问题(大量用户访问集中在一个或极少数节点,从而造成单台节点超出自身承受能力)。另外需要保证Rowkey的唯一性。列簇HBase表中的每个列都归属于某个列簇,一个列簇中的所有列成员有着相同的前缀。比如,列anchor:和anchor:my.look.ca都是列簇anchor的成员。列簇是表的schema的一部分,必须在使用表之前定义列簇,但列却不是必需的,写数据的时候可以动态加入。一般将经常一起查询的列放在一个列簇中,合理划分列簇将减少查询时加载到缓存的数据,提高查询效率,但也不能有太多的列簇,因为跨列簇访问是非常低效的。单元格HBase中通过RowKey和Column确定的一个存储单元称为单元格(Cell)。每个单元格都保存着同一份数据的多个版本,不同时间版本的数据按照时间顺序倒序排序,必威体育精装版时间的数据排在最前面,时间戳是?64?位的整数,可以由客户端在写入数据时赋值,也可以由RegionServer自动赋值。HBase逻辑模型

HBase物理模型湖南软件职业技术大学在物理上,表是按列列簇分开存储的。HBase的列是按列簇分组的,HFile是面向列的物理文件,可以存放行的不同列,一个列簇的数据存放在多个HFile中,最重要的是一个列簇的数据会被同一个Region管理,物理上存放在一起。表8-1为列簇contens物理模型,表8-2为列簇anchor物理模型。

HBase物理模型湖南软件职业技术大学HBase表中的所有行都是按照RowKey的字典顺序排列,在行的方向上分割为多个Region。Region是HBase数据管理的基本单位,数据移动、数据的负债均衡以及数据的分裂都是以Region为单位来进行操作。Region的切分方式如图所示。

HBase物理模型湖南软件职业技术大学Region是HBase中分布式存储就和负债均衡的最小单元。不同的Region会分布到不同的RegionServer上,Region的负债均衡如图所示。

HBase物理模型湖南软件职

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档