- 1、本文档共88页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
列存储数据库——HBase;目前有一份经过脱敏后的钞票存取记录的文件stumer_in_out_details.txt,共约100万条数据。示例数据如图。
钞票的存取记录是解决银行涉假币纠纷的举证和责任认定问题的重要凭证之一,因此,银行对冠字号查询系统提出以下两个需求。
支持保存至少3个月的全行数据。
在已存储100亿条记录的情况下,插入性能高于10000条/秒,并且精确查询时间小于1秒。
;钞票的存取记录是解决银行涉假币纠纷的举证和责任认定问题的重要凭证之一,因此,银行对冠字号查询系统提出以下两个需求。
支持保存至少3个月的全行数据。
在已存储100亿条记录的情况下,插入性能高于10000条/秒,并且精确查询时间小于1秒。
鉴于银行的需求,为了保证较高的处理效率与灵活性,选用能够满足低延迟、每秒百万级查询的HBase作为冠字号查询系统的存储数据库。
本项目将对HBase的基础知识与原理架构进行介绍,接着介绍HBase集群的搭建过程,并结合冠字号查询系统实例,详细介绍HBase Shell基础语法和HBase Java API基础语法的使用。
;学习HBase架构、数据模型和HBase集群搭建过程,并根据冠字号查询系统的业务需求安装配置HBase集群。
了解HBase表设计原则,学习HBase表的创建与管理操作,根据钞票交易数据设计HBase表结构。
学习HBase Shell命令,插入部分钞票交易数据至HBase表中,并对钞票交易数据进行基础探索,了解钞票数据的结构特征。
学习HBase Java API基本操作,根据钞票交易数据设计并编写HBase表,导入全部钞票交易数据至HBase表中,并实现钞票表数据的检索查询。
;;HBase是目前非常热门的一款分布式非结构化数据库,无论是在互联网行业还是其他传统IT行业都得到了广泛的应用。近几年随着国内大数据理念的普及,HBase凭借其高可靠、易扩展、高性能以及成熟的社区支持,受到越来越多企业的青睐。
了解HBase相关概念和发展历史。
HBase核心功能模块的作用。
HBase的特性以及与其他数据库的区别。;HBase是一个高可靠、高性能、面向列、可伸缩的分布式非结构化数据库,主要用于存储非结构化和半结构化的松散数据。
HBase的目标是处理数据量非常庞大的表,并且可以通过水平???展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。
HBase被广泛应用于Facebook、Yahoo、阿里巴巴、小米、华为等公司的在线系统以及离线分析系统中。;HBase的诞生和发展,离不开Google发表的3篇论文:GFS、MapReduce和Bigtable。
GFS: 2003年,Google发表了一篇论文The Google File System。它使用商用硬件集群存储海量数据。
MapReduce: 2004年,Google又发表了另一篇论文Bigtable Data Processing on Large Clusters。MapReduce能够充分利用GFS集群中的每个商用服务器提供的大量CPU。
Bigtable: 2006年的论文Bigtable:A Distributed Storage System for Structured Data中发表了。Bigtable分布式数据库可以在局部几台服务器崩溃的情况下继续提供高性能的服务。
2007年,Powerset公司的工作人员基于Bigtable的论文研发了Bigtable的Java开源版本,即HBase。;HBase作为列存储非关系型数据库,具有以下几个特点。
容量巨大。HBase的单表可以支持千亿行、百万列的数据规模,数据容量可以达到TB甚至PB级别。
良好的可扩展。HBase集群可以非常方便地实现集群容量扩展,主要包括数据存储节点扩展以及读写服务节点扩展。
稀疏性。HBase支持大量稀疏存储,即允许大量列值为空,并不占用任何存储空间。
高性能。HBase目前主要擅长于OLTP场景,数据写操作性能强劲。
多版本。HBase支持多版本特性。
支持过期。HBase支持TTL过期特性,用户只需要设置过期时间,超过TTL的数据就会被自动清理。
Hadoop原生支持。Base是Hadoop生态中的核心成员之一,很多生态组件都可以与其直接对接。
;HBase与传统数据库RDBMS的区别;HBase与Hive的区别;对象存储:存储新闻、网页、图片、视频、病毒等文件。
时序数据:HBase有一个OpenTSDB模块,可以满足时序类场景的高并发和海量储存的需求。
推荐画像:特别是用户的画像,是一个比较大的稀疏矩阵,可以使用HBase进行存储。
时空数据:主要是轨迹、气象网格的数据。
Cubed OLAP:Kylin的
文档评论(0)