网站大量收购闲置独家精品文档,联系QQ:2885784924
  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
8HBase详解课案

Hbase介绍 主要内容 Hbase项目 HBase数据模型 HBase安装与配置 Hbase结构与原理 常用的HBaseAPI 现场演示 引入HBASE的原因 数据库系统已无法适应大型分布式数据存储的需要 基于关系数据库的改进,比如副本、分区技术等,导致系统难于安装与维护 关系模型对数据的操作使数据的存贮变得复杂 引入HBASE的原因 HBASE从设计理念上就为可扩展做好了充分准备 空间的扩展只需要加入存储结点 使用‘表’的概念,但不同于关系数据库,不支持SQL 实质上是一张极大的、非常稀疏的,存储在分布式文件系统上的表 HBase历史 2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起 2008年成为Apache Hadoop的一个子项目 现已作为产品被使用 Facebook Yahoo Taobao HBase安装 需要ZooKeeper支持 本身带zookeeper.jar包 步骤 解压,并添加支撑的.jar包到用户CLASS_PATH 修改conf下 hbase-env.sh, regionservers Hbase-site.xml 启动Hbase: bin/start-hbase.sh 数据模型 存储抓取网页和相关信息 每个页面对应一行,是个有百万行的大表 要基于此表进行分析与解析并由有哪些信誉好的足球投注网站引擎对关键字进行索引 表需要并发地被众多网页抓取程序随机地访问以及更新数据 表内容也要作为网页实时缓存被大量用户随机访问 逻辑视图 Row Key Time Stamp Column Contents Column Anchor Column “mime” my.look.ca “n.www” T9 CNN T8 CNN.COM T6 “html.. “ Text/html T5 “html.. “ t3 “html.. “ 数据模型:行 Row Key Time Stamp Column Contents Column Anchor Column “mime” my.look.ca “n.www” T9 CNN T8 CNN.COM T6 “html.. “ Text/html T5 “html.. “ t3 “html.. “ 行键 列 列 数据模型:行 每行数据有一可排序的关键字和任意列项 字符串、整数、二进制串甚至与串行化的结构都可以作为行键 表按照行键的“逐字节排序”顺序对行进行有序化处理 表内数据非常‘稀疏’,不同的行的列的数目完全可以大不相同 数据模型:行 可以只对一行上“锁” 对行的写操作始终是“原子”的 不支持对多行的事务处理 数据模型:列 列必须用‘族’(family)来定义 任意一列有如下形式 “族:标签” 其中,族和标签都可为任意形式的串 物理上将同“族”数据存储在一起 数据可通过时间戳区分版本 数据模型:列 Row Key Time Stamp Column Contents Column Anchor Column “mime” my.look.ca “n.www” T9 CNN T8 CNN.COM T6 “html.. “ Text/html T5 “html.. “ t3 “html.. “ 族 标签 物理视图 Row Key Time Stamp Column: Contents Cn.www T6 “html..” T5 “html..” T3 “html..” Row Key Time Stamp Column: Anchor Cn.www T9 Anchor: CNN T5 Anchor:my.look.ca CNN.COM Row Key Time Stamp Column: mime Cn.www T6 text/html 数据模型 Row Key Time Stamp Column Contents Column Anchor Column “mime” my.look.ca “n.www” T9 CNN T8 CNN.COM T6 “html.. “ Text/html T5 “html.. “ t3 “html.. “ 系统总体结构 数据存储实体:区域 表按照“水平”的方式划分成一个或多个“区域”(region) 每个区域都包含一个随机id,区域内的行也是按行键有序的 最初每张表包含一个区域,当表增大后,这个区域被自动分割成多个区域 区域分布在集群的多个节点上 区域的管理 区域服务器(Region Server) 为区域的访问提供服务,直接为用户提供服务 负责维护区域的分割 负责数据存储持久化 主服务器(Master Server) 管理区域服务器 指派区域服务器对特定区域服务 恢复失效的区域服务器 特殊目录数据 元数据(META) 全

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档