- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章 大数据存储仓库 8.1 数据仓库 HBase是一个分布式的、面向列的开源数据库,HBase是Apache的Hadoop项目的子项目。HBase在Hadoop之上提供了类似于Bigtable的能力,其不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 什么时候使用HBase更合适呢? 第一,保证数据量足够大,如果表中有数以千万计的行,那么HBase为一个不错的候选对象。第二,保证有充足的硬件。集群的节点数应该至少有6个,这是由于HDFS在少于5个Datanode时并不能很好的工作(原因如HDFS的块副本默认3个等),另外,还要加上1个Namenode。 8.2 HBase数据库 HBase系统框架示意图 HBase–Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 8.3 HBase模型 HBase以表的形式存储数据,每个表由行和列组成,每个列属于一个特定的列族(Column Family)。表中由行和列确定的存储单元称为一个元素(Cell),每个元素保存了同一份数据的多个版本,由时间戳(Time Stamp)来标识。 时间戳对应着每次数据操作所关键的时间,可以由系统自动生成,也可以由用户显式地赋值。注意,如果应用程序需要避免数据版本冲突,则必须显式地生成时间戳。 列定义为:family:label(列族:标签),通过这两部分可以唯一地指定一个数据的存储列。对列族的定义和修改需要管理员权限,而标签可以在任何时候添加。 8.4 HBase服务器 HBase在行的方向上将表分成了多个子表(Region),每个Region包含了一定范围内的数据。每个表最初只有一个Region,随着表中的记录数不断增加直到超过了某个阈值时,Region就会被划分成两个新的Region。所以一段时间后,一个表通常会有多个Region。 Region服务器 HBase访问接口类型主要以下几种: ● Native Java API,最常规和高效的访问方式,适合Hadoop MapReduce Job并行批处理HBase表数据。 ● HBase Shell,HBase的命令行工具,最简单的接口,适合HBase管理使用。 ● Thrift Gateway,利用Thrift序列化技术,支持C++,PHP,Python等多种语言,适合其他异构系统在线访问HBase表数据。 ● REST Gateway,支持REST风格的Http API访问HBase,解除了语言限制。 ● Pig,可以使用Pig Latin流式编程语言来操作HBase中的数据,和Hive类似,本质最终也是编译成MapReduce Job来处理HBase表数据,适合做数据统计 ● Hive,当前Hive的Release版本尚没有加入对HBase的支持,但在Hive0.7.0以上版本中将会支持HBase,可以使用类似SQL语言来访问HBase。 8.5 HBase基本操作 HBase的读数据流程为: ● 客户端连接ZooKeeper,获取-ROOT-节点的位置信息; ● 客户端咨询-ROOT-节点,定位包含请求行的.META. Region范围; ● 客户端查找.META.Region,获取包含用户数据的Region及其所在位置; ● 客户端与Region Server直接交互,读取数据。 HBase写数据流程如下: ● 客户端将写作添加到Log文件中,接着把数据写入Memcache中; ● 当Memcache填满时,内容被持久存储到HDFS文件系统的Store中。 ● Region Server周期性地发起Flush Cache命令,将Memcache中的数据持久存储到Store,同时清空Memcache。
您可能关注的文档
最近下载
- 再保险电子教案省公开课一等奖全国示范课微课金奖PPT课件.pptx
- 江苏省政府采购评审专家考试题库.docx VIP
- 2024届高考英语二轮专题复习与测试专题六读后续写课件(共94张PPT).pptx
- 酒店运营管理(北京联合大学)中国大学MOOC慕课章节测验答案(课程ID:1206458820).pdf
- 小塞尔采蓝莓儿童故事绘本PPT课件.ppt VIP
- 《百草枯中毒》ppt课件.pptx
- 一年级奥数教材详细版.doc
- 专题04 一次函数中的特殊平行四边形存在性问题(原卷版)-2024年常考压轴题攻略(9年级上册人教版).pdf
- 关于江苏省政府采购评审专家.doc VIP
- Unit 5 Lesson 3 At the zoo 课件 七年级英语上册冀教版(2024).pptx VIP
文档评论(0)