- 1、本文档共42页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
8HBase详解课案
Hbase介绍
主要内容
Hbase项目
HBase数据模型
HBase安装与配置
Hbase结构与原理
常用的HBaseAPI
现场演示
引入HBASE的原因
数据库系统已无法适应大型分布式数据存储的需要
基于关系数据库的改进,比如副本、分区技术等,导致系统难于安装与维护
关系模型对数据的操作使数据的存贮变得复杂
引入HBASE的原因
HBASE从设计理念上就为可扩展做好了充分准备
空间的扩展只需要加入存储结点
使用‘表’的概念,但不同于关系数据库,不支持SQL
实质上是一张极大的、非常稀疏的,存储在分布式文件系统上的表
HBase历史
2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起
2008年成为Apache Hadoop的一个子项目
现已作为产品被使用
Facebook
Yahoo
Taobao
HBase安装
需要ZooKeeper支持
本身带zookeeper.jar包
步骤
解压,并添加支撑的.jar包到用户CLASS_PATH
修改conf下
hbase-env.sh, regionservers
Hbase-site.xml
启动Hbase: bin/start-hbase.sh
数据模型
存储抓取网页和相关信息
每个页面对应一行,是个有百万行的大表
要基于此表进行分析与解析并由有哪些信誉好的足球投注网站引擎对关键字进行索引
表需要并发地被众多网页抓取程序随机地访问以及更新数据
表内容也要作为网页实时缓存被大量用户随机访问
逻辑视图
Row Key
Time Stamp
Column Contents
Column Anchor
Column “mime”
my.look.ca
“n.www”
T9
CNN
T8
CNN.COM
T6
“html.. “
Text/html
T5
“html.. “
t3
“html.. “
数据模型:行
Row Key
Time Stamp
Column Contents
Column Anchor
Column “mime”
my.look.ca
“n.www”
T9
CNN
T8
CNN.COM
T6
“html.. “
Text/html
T5
“html.. “
t3
“html.. “
行键
列
列
数据模型:行
每行数据有一可排序的关键字和任意列项
字符串、整数、二进制串甚至与串行化的结构都可以作为行键
表按照行键的“逐字节排序”顺序对行进行有序化处理
表内数据非常‘稀疏’,不同的行的列的数目完全可以大不相同
数据模型:行
可以只对一行上“锁”
对行的写操作始终是“原子”的
不支持对多行的事务处理
数据模型:列
列必须用‘族’(family)来定义
任意一列有如下形式
“族:标签”
其中,族和标签都可为任意形式的串
物理上将同“族”数据存储在一起
数据可通过时间戳区分版本
数据模型:列
Row Key
Time Stamp
Column Contents
Column Anchor
Column “mime”
my.look.ca
“n.www”
T9
CNN
T8
CNN.COM
T6
“html.. “
Text/html
T5
“html.. “
t3
“html.. “
族
标签
物理视图
Row Key
Time Stamp
Column: Contents
Cn.www
T6
“html..”
T5
“html..”
T3
“html..”
Row Key
Time Stamp
Column: Anchor
Cn.www
T9
Anchor:
CNN
T5
Anchor:my.look.ca
CNN.COM
Row Key
Time Stamp
Column: mime
Cn.www
T6
text/html
数据模型
Row Key
Time Stamp
Column Contents
Column Anchor
Column “mime”
my.look.ca
“n.www”
T9
CNN
T8
CNN.COM
T6
“html.. “
Text/html
T5
“html.. “
t3
“html.. “
系统总体结构
数据存储实体:区域
表按照“水平”的方式划分成一个或多个“区域”(region)
每个区域都包含一个随机id,区域内的行也是按行键有序的
最初每张表包含一个区域,当表增大后,这个区域被自动分割成多个区域
区域分布在集群的多个节点上
区域的管理
区域服务器(Region Server)
为区域的访问提供服务,直接为用户提供服务
负责维护区域的分割
负责数据存储持久化
主服务器(Master Server)
管理区域服务器
指派区域服务器对特定区域服务
恢复失效的区域服务器
特殊目录数据
元数据(META)
全
您可能关注的文档
- 8051单片机指令.ppt
- 储运经济经济评价算例.ppt
- 儿内科临床诊疗指南.doc
- 8.2灿烂的文明之花用2.pptx
- 8.小书包.pptx
- 8086课程设计课案.doc
- 8086的指令系统课案.ppt
- 儿歌与儿童诗.ppt
- 儒道互补(公开课).ppt
- 80塔式起重机装拆方案.doc
- 浙江省县域教研联盟2024-2025学年高三上学期12月模拟考试技术试题-高中信息技术2.docx
- 湖南省岳阳市云溪区2024-2025学年高三上学期11月期中地理试题.docx
- 浙江省杭州市北斗联盟2024-2025学年高一上学期期中联考政治试题2.docx
- 广东省肇庆市实验中学高三理科化学第16周限时训练.doc
- 黑龙江省牡丹江市第一高级中学2024-2025学年高一上学期11月期中地理试题2.docx
- 云南省玉溪市峨山一中2017-2018学年高二四月份月考生物试题.doc
- 山东省实验中学高三第三次诊断考试历史试题.docx
- 山东省菏泽第一中学2024-2025学年高二上学期第一次月考历史试题含答案.docx
- 山东省菏泽市2024-2025学年高一上学期11月期中数学试题(A)含解析.docx
- 安徽省六安市舒城中学高三仿真(一)文科综合试题.doc
文档评论(0)