基于分布式数据库的ROLAP数据自助分析系统的研究与应用.docxVIP

基于分布式数据库的ROLAP数据自助分析系统的研究与应用.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

基于分布式数据库的ROLAP数据自助分析系统的研究与应用

?

?

张波

摘要:文章通过对某保险公司的分布式数据库架构下数据自助分析平台中的应用方案进行研究与应用,提出在自助分析系统中使用分布式MPP数据库进行海量数据处理的思路,对开源分布式数据库GreenPlum进行了重点分析,同时结合ROLAP自助分析系统的功能特点,给出系统部署的应用建议。研究内容对于分布式数据库在大数据决策分析系统的落地具有一定的实用价值。

关键词:分布式数据库;BIGLAKE;ROLAP;数据分析

:TP311.1文献标志码:A:2095-2945(2018)11-0055-02

Abstract:Throughtheresearchandapplicationofthedataself-helpanalysisplatformunderthedistributeddatabasearchitectureofaninsurancecompany,thispaperputsforwardtheideaofusingdistributedMPPdatabaseformassdataprocessingintheself-helpanalysissystem,analyzestheopensourcedistributeddatabaseGreenPlumemphatically,andthroughthefunctioncharacteristicsofROLAPself-helpanalysissystem,theapplicationsuggestionsofsystemdeploymentaregiven.Theresearchcontenthascertainpracticalvaluetothedistributeddatabaseinbigdatadecisionanalysissystemlanding.

Keywords:distributeddatabase;BIGLAKE;ROLAP;dataanalysis

1概述

近幾年,随着移动互联网的高速发展,大数据、云计算等新技术的不断推进,保险公司面临着海量的数据处理、复杂的数据结构分析、精细化业务需求、平台能力开放共享等多重压力,所以需要先进的技术,搭建公司全新的大数据处理平台及自助分析系统。国内外有一个非常火热的词汇“BIGLAKE”(数据湖泊),目的是不需要再对数据像以前那样经过定制,生成特定的业务报表,而是要保存原始数据,什么时候想分析就从原始数据上直接处理。依托云计算分布式数据库技术,处理、整合海量数据,实现原始清单粒度的ROLAP技术的自助分析系统,将会极大提高数据挖掘的价值,为企业经营提供决策、营销、服务建议的支撑工作。

2云计算下的分布式数据库

2.1SQLonHadoop和MPP技术选型

数据仓库是数据分析类系统的核心,传统数仓一般采用完全共享的架构部署,随着存储数据的增长,性能负载将急剧增加,导致存储I/O瓶颈、系统应用加载时间长等问题。作为IT的必威体育精装版演进成果,大数据分布式数据库技术已成为一系列可能改变未来生活和企业发展技术的基石,选型上有Hadoop(分布式系统基础架构)、MPP(MassiveParallelProcessing,海量并行处理结构)架构两种技术架构。这两种都可处理大规模数据的并行计算,共同之处在于:

(1)存储数据分布在多个节点服务器上。

(2)支持横向扩展来提高整个系统的计算能力和存储容量。

(3)采用分布式并行计算框架。

(4)支持X86开放集群架构。

但在数据存储、计算方法、效率、功能上,也存在明显差异:

(1)MPP按照关系数据库行列表方式存储数据(有模式),Hadoop按照文件切片方式分布式存储(无模式)。

(2)数据分布机制不同,MPP采用Hash分布,计算节点和存储紧密耦合,而Hadoop按照文件切块后随机分配,节点和数据无耦合。MPP采用SQL并行查询计划,Hadoop采用Mapreduce框架。

(3)MPP数据库在计算并行度和算法上比Hadoop效率更高且灵活。在同样的环境下测试对比中,Mapreduce对单表的计算尚可,但对于复杂查询,如多表关联等,性能很差。

(4)MPP数据库采用SQL作为主要交互式语言,SQL语言简单易学,大幅简化了数据的操作和交互过程。而对MapReduce编程明显是困难的,这几年SQL-on-HADOOP技术大量涌现出来,这些技术包括:Hive、Impala、SPARKSQL等,虽然易

文档评论(0)

173****5949 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档