- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
?
?
基于分布式数据库的ROLAP数据自助分析系统的研究与应用
?
?
张波
摘要:文章通过对某保险公司的分布式数据库架构下数据自助分析平台中的应用方案进行研究与应用,提出在自助分析系统中使用分布式MPP数据库进行海量数据处理的思路,对开源分布式数据库GreenPlum进行了重点分析,同时结合ROLAP自助分析系统的功能特点,给出系统部署的应用建议。研究内容对于分布式数据库在大数据决策分析系统的落地具有一定的实用价值。
关键词:分布式数据库;BIGLAKE;ROLAP;数据分析
:TP311.1文献标志码:A:2095-2945(2018)11-0055-02
Abstract:Throughtheresearchandapplicationofthedataself-helpanalysisplatformunderthedistributeddatabasearchitectureofaninsurancecompany,thispaperputsforwardtheideaofusingdistributedMPPdatabaseformassdataprocessingintheself-helpanalysissystem,analyzestheopensourcedistributeddatabaseGreenPlumemphatically,andthroughthefunctioncharacteristicsofROLAPself-helpanalysissystem,theapplicationsuggestionsofsystemdeploymentaregiven.Theresearchcontenthascertainpracticalvaluetothedistributeddatabaseinbigdatadecisionanalysissystemlanding.
Keywords:distributeddatabase;BIGLAKE;ROLAP;dataanalysis
1概述
近幾年,随着移动互联网的高速发展,大数据、云计算等新技术的不断推进,保险公司面临着海量的数据处理、复杂的数据结构分析、精细化业务需求、平台能力开放共享等多重压力,所以需要先进的技术,搭建公司全新的大数据处理平台及自助分析系统。国内外有一个非常火热的词汇“BIGLAKE”(数据湖泊),目的是不需要再对数据像以前那样经过定制,生成特定的业务报表,而是要保存原始数据,什么时候想分析就从原始数据上直接处理。依托云计算分布式数据库技术,处理、整合海量数据,实现原始清单粒度的ROLAP技术的自助分析系统,将会极大提高数据挖掘的价值,为企业经营提供决策、营销、服务建议的支撑工作。
2云计算下的分布式数据库
2.1SQLonHadoop和MPP技术选型
数据仓库是数据分析类系统的核心,传统数仓一般采用完全共享的架构部署,随着存储数据的增长,性能负载将急剧增加,导致存储I/O瓶颈、系统应用加载时间长等问题。作为IT的必威体育精装版演进成果,大数据分布式数据库技术已成为一系列可能改变未来生活和企业发展技术的基石,选型上有Hadoop(分布式系统基础架构)、MPP(MassiveParallelProcessing,海量并行处理结构)架构两种技术架构。这两种都可处理大规模数据的并行计算,共同之处在于:
(1)存储数据分布在多个节点服务器上。
(2)支持横向扩展来提高整个系统的计算能力和存储容量。
(3)采用分布式并行计算框架。
(4)支持X86开放集群架构。
但在数据存储、计算方法、效率、功能上,也存在明显差异:
(1)MPP按照关系数据库行列表方式存储数据(有模式),Hadoop按照文件切片方式分布式存储(无模式)。
(2)数据分布机制不同,MPP采用Hash分布,计算节点和存储紧密耦合,而Hadoop按照文件切块后随机分配,节点和数据无耦合。MPP采用SQL并行查询计划,Hadoop采用Mapreduce框架。
(3)MPP数据库在计算并行度和算法上比Hadoop效率更高且灵活。在同样的环境下测试对比中,Mapreduce对单表的计算尚可,但对于复杂查询,如多表关联等,性能很差。
(4)MPP数据库采用SQL作为主要交互式语言,SQL语言简单易学,大幅简化了数据的操作和交互过程。而对MapReduce编程明显是困难的,这几年SQL-on-HADOOP技术大量涌现出来,这些技术包括:Hive、Impala、SPARKSQL等,虽然易
您可能关注的文档
- 基于大数据的继电保护智能运行管控体系探索.docx
- 基于大数据环境下的电力营销信息化建设.docx
- 基于双重约束条件下家庭分类的农民工家庭市民化成本分析模型设计.docx
- 基于区块链技术的河北煤炭港口物流规划布局研究.docx
- 基于信息化的行政事业单位内部控制探究.docx
- 基于产业链视角的人工智能风险分析及其防范.docx
- 基于互联网分析企业党建工作的实施途径.docx
- 2024年建筑施工员工作总结(7篇).pdf
- 2024年个人计划7篇(经典).pdf
- 三年级上册道德与法治 期末试题(含答案).pdf
- 2024年后半学期学习计划(15篇).pdf
- 2023年部编版七年级语文(下册期中)复习题及答案.pdf
- 2024社区后备干部考试应知应会题库及答案.pdf
- 2022~2023燃气职业技能鉴定考试题库及答案第454期.pdf
- 2022年-2023年上海市叉车司机N1模拟考试题试卷(含答案).pdf
- 2022~2023内科护理(中级)考试题库及答案第789期.pdf
- 2024年广东省深圳市龙岗实验中学中考联考英语试卷含答案.pdf
- 2024年全员安全生产“大学习、 大培训、 大考试”考前练习题及答案.pdf
- 2023年国家公务员考试公共基础知识法律知识题库及答案(共150题).pdf
- 11 区域发展-2023年高考地理二模试题分项汇编(广东专用).pdf
最近下载
- 2023年05月湖南省古丈县事业单位公开招考41名工作人员笔试题库含答案解析.pdf
- 第4课 “0”“1”表信息课件四上信息科技重大版(2023).pptx VIP
- 仁爱版初中英语单词表.pdf
- 空气源热泵施工方案范文.docx VIP
- 【课题】基于教学评一致的初中语文优化课后作业设计的研究设计与论证报告.docx VIP
- 第1课 我帮家人取包裹课件四上信息科技重大版(2023).pptx VIP
- 电气控制与PLC课程自评报告-建筑工程学院-江西现代职业技术学院.DOC
- GB50270-2010 连续输送设备安装工程施工及验收规范.pdf
- 2020科目一考试题库1000(精选).pdf
- 第7课 信息存储有方法课件四上信息科技重大版(2023).pptx VIP
文档评论(0)