- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
题 纲 系统需求与现有方案 技术方案 应用案例 数据模型——2. shard数据结构 VI:属性值 全排序索引 RIDIndex:属性值 与记录I索引 RI:记录索引 RD:记录数据 Datanode2 Datanode2 并发数据加载策略 Master集群 Datanode集群 Datanode1 Masternode1 Masternode2 谢 谢 * (1) (1) select domain,value from dnsdomaindb where (TYPE=A)or (TYPE=AR_A) or (TYPE=AAAA) or value = (select domain from dnsdomaindb where (TYPE=NS) or (TYPE=MX) ) select domain,value from dnsdomaindb Where (TYPE=MX) or (TYPE=NS) ; ) * 把新增的功能增加的这部分中,结合框图说明新做的功能 * * 中国科学院计算技术研究所 一种支持实时复杂查询和分析的NoSQL系统 题 纲 系统需求与现有方案 技术方案 应用案例 系统需求概述 数据及系统特点 结构化:每条记录包含10个字段左右,每条记录的大小大约是几百字节 数据量巨大:达到千亿级以上,达到PB级 加载速度快:达到百万条/s的规模 系统规模:可以扩展到上千个节点 对数据的访问需求 提供SQL访问接口 支持大规模结果集:达到千万条规模 支持按多列的实时查询(秒级) 支持多列之间的逻辑比较关系,例如AND、OR、NOT等 支持多列之间的的算术比较关系,例如=、、等 支持统计、聚合、分组、排序等操作(秒级) ORDER BY ASC (DESC),GROUP BY, TOP, LIMIT SUM,COUNT,AVG,MAX,MIN 数据不更新,但需要对数据批量删除 系统需求概述 共享磁盘 Oracle RAC DB SAN/共享磁盘 DB DB DB 网络 SAN/FC 完全共享 SMP服务器 DB 磁盘 现有方案(1)—关系数据库 单机数据库结构 Oracle RAC 关系型数据库都主要关注了CA,即一致性和可用性 性能、可扩展性上都比较差 无法满足可扩展性和性能的要求 完全不共享 DB DB DB DB 网络 磁盘 磁盘 磁盘 磁盘 Master 现有方案(2)—关系数据库集群 Parallel DBMS 数据分片(sharding)或者功能分区 将数据按照不同的策略进行划分:功能、字段值范围、HASH等 优点:能够有效的解决可扩展性的问题 缺点:shard的扩容比较复杂 ;联合多个shard的表数据查询复杂。 NoSQL(非关系型) NoSQL ≠No SQL,而是No Relationship,Not Only SQL 系统特点 可以处理超大规模的数据,可支持到千亿规模 Sharing-Noting架构,可扩展性强 数据加载速度快,并可随节点个数线性增长 现有方案(3)-NoSQL方案 根据特定应用场景的需要设计开发了很多NoSQL系统 分布式KV型:例如:Dynamo,PNUTS、Flare CF型: 例如:Bigtable,Cassandra和Hbase。 文档型:例如:MongoDB, coutchDB 现有方案(3)-NoSQL方案 现有方案(3)-NoSQL方案 现有No-SQL数据管理系统检索能力差 K/V型:仅支持基于Key的查询,无法做多关键字查询以及根据Value的复杂查询 Column-Based型:扩展了KV数据模型的表述能力,但是仅支持关键字查询,时间区间查询,不支持针对属性的复杂查询以及统计、分析等操作 KV型NoSQL数据库一般采用CHash策略 基于CHash实现组员管理、数据分布、副本容错等 容易实现精确查询,但是无法支持区间查询 现有方案(3)-No-SQL.KV 现有方案(3)-No-SQL.CF 数据采用列存,以Region为单位节点间分布存储 基于Region建立三层索引,Root节点保存在Master上 现有方案(4)—Hadoop+MR+HIVE Hbase、Pig、Hive:提供结构化数据的存储、查询、分析技术 MapReduce:提供可靠的分布计算方法 HDFS:提供统一视图的分布式存储环境 面向非实时的分析型应用 速度慢,无法满足实时性的要求 现有方案分析 PDBMS、No-SQL数据库、Hadoop局限性分析! Hadoop+MR+Hive RDBMS 当节点规模扩大时,由 于关系模式的约束,子 表 维护、数据错误等 原因导致关系数据库的 性能急剧下降! MapReduc
您可能关注的文档
最近下载
- 风电项目监理大纲(投标技术文件).pdf VIP
- 《PS素材兼教程.doc VIP
- 新能源公司风电场项目工程EPC总承包合同.pdf VIP
- 2024年国家公务员面试考试试题与参考答案.pdf VIP
- 备战2023年高考地理一轮复习微专题微考点训练(全国通用)4-7 正午太阳高度角的变化(解析版).pdf VIP
- 2013建设工程计价计量规范辅导.docx
- 从0开始学习英语语法.pdf VIP
- 四年级下册综合实践活动课件-主题一 跟着节气去探究|辽师大版 31张.ppt
- 《建筑工程建筑面积计算规范》宣贯辅导教材.docx
- 2025年江西机电职业技术学院单招职业技能测试题库及一套答案.docx VIP
文档评论(0)