合众分布式数据库系统产品介绍.pptx

下载文档

1
0
约4.39千字
约 47页
2024-08-13 发布于北京
举报
版权申诉
保障服务

合众分布式数据库系统产品介绍.pptx

1、本文档共47页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

合众分布式数据库UBD

产品介绍;1;Hadoop：大数据存储和处理平台;Hadoop当前的主要缺陷;为了降低Hadoop的使用门槛创建了Hive;;1;由于客户大多数的核心业务系统和分析工具都是基于SQL构建的，在Hadoop中SQL依然是一个重要的选择，即SQL-on-Hadoop

对存储在Hadoop中的数据，UDB提供完整功能的标准SQL功能，并提供良好的安全控制和无与伦比的性能;1;UDB数据库底层的文件系统是HDFS，数据库集群是由主服务器、备用主服务器和小表服务器组成，其中主服务器对应HDFS的NameNode，备用主服务器对应HDFS的backupNameNode，而每个小表服务器对应HDFS的DataNode;首先UDB是运行在Hadoop上的一个系统，目前支持合众自己的Hadoop发布版UDH和Hortonworks的Hadoop发布版HDP、ApacheHadoop2.2以上版等;坚不可摧的可靠性是保障业务7*24小时运转的基石

UDB的数据依然是存储在HDFS中，利用HDFS的数据多副本和机架感知来保证数据的可靠性;UDB动态地管理集群中的节点服务器，借助双重安全机制提升系统的可靠性，通过Zookeeper集群和心跳信号监控节点状态，一旦发现有服务器发生了离线故障，UDB将立即进行数据的重分配处理;数据库的表被系统自动切片成小表（Tablet）的处理方法：当数据记录插入到UDB数据库中时，它被主服务器根据控制表而放入到某个从服务器的内存中，当数据记录容量达到一个预先定义的上限时，系统对表数据进行分割成不同的小表，并把分割后的小表均匀分配给不同的从服务器管理

数据库小表在内存中的管理方法：从服务器监视小表在系统中的内存使用情况，当内存容量达到一个上限时，从服务器需要移出部分小表并存储到文件系统来减少系统内存的使用，保证系统的稳定运行;当从服务器存储小表时，按列存储，同一列的数据存储在一起，这就为数据库查询列值按需读取提供了必要的存储基础，减少了系统的IO

从查询性能的角度看，由于大多数OLAP分析查询只关心表中很少的列，从而可以通过很少的磁盘I/O得到查询结果;独创的小表（Tablet）/小表块（TabletBlock）存储技术

数据记录最终会被存储为以小表Block为单元的单位中，每一个Block包含至多一万个记录（可设置）

;在相同的TabletBlock内，UDB会依??存储的数据类型，自动选择合适的压缩算法高效压缩，数字类型采用差值及RLE（RunLengthEncoding）数据压缩技术，文本类型的压缩过程则采用数据字典加排序和共享头压缩机制;UDB的用户数据、表结构数据和表数据都是存储在HDFS中

小表所对应的文件大小大致等同于HDFS的一个数据块，这样就可以保证数据读取时可以全部从小表服务器的本地读取，避免了网络开销

表结构数据有主服务器管理，在系统启动时主服务器就把表的结构数据读取到内存

小表数据由小表服务器进行管理，小表服务器为每个小表在内存建立一个内存表用于缓冲新加载的数据;UDB支持事物日志，事物日志数据存储在HDFS中

主服务器负责根据数据操作类型生成相应的事物日志：包括插入，更新和删除，UDB的事物日志采取WAL协议，即事务日志数据先于小表数据存储到HDFS中

在进行事物回滚时，主服务器根据事务日志数据对小表数据进行反向操作确保数据的一致性;当加载结构化数据时，首先数据加载到主服务器缓冲区中，当缓冲区满时或者事物的提交时，主服务器就把缓冲的数据根据表存储位置推送到相应的小表服务器中

小表服务器接收到数据后，也把数据放入对应小表的内存表中，当内存表满时，小表服务器就要对内存表做一次收缩，把相应的数据存储到HDFS的小表文件中

小表服务器会把更新的数据或者需要删除的数据对应的主键值也放到内存表中，当系统对内存表收缩时，就把相应的更新数据或者删除数据存储到小表数据文件中;系统实现了类MapReduce的SQL执行引擎，主服务器接受SQL查询语句，先对语句进行编译生成中间树，然后对中间树进行优化，最后生成一系列的查询作业（QueryJob），每个查询作业又由多个相同类型的查询任务，而每个查询作业对应的查询任务数和小表的数目相关;一个SQL语句往往由多个查询作业组成，形成一个序列，主服务器根据序列的次序执行相应的查询作业，而在执行每个查询作业时，把该作业的多个查询任务根据每个任务所对应的数据分布并行地分配到后台的小表服务器，小表服务器接收到查询任务后，就根据任务的类型选择相应的算法进行计算，计算所对应的数据需要从内存缓冲区或者HDFS中读取;UDB中有以下查询任务类型：Map(过滤),Map(投影),Map(联合),Map(建组),Map(排序)