- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
并行机制的商务智能系统BI-PaaS
基于并行机制的商务智能系统BI-PaaS
摘要:针对海量信息处理对传统的商业智能软件提出的挑战,设计并实现了一种基于并行机制的商务智能(bi)系统(bi閥paas)。该系统搭建在中国移动大云基础设施之上, 以云计算的强大并行计算和分布式存储能力为支撑,将etl、dm、olap、report等各类bi能力并行化。实验结果表明,基于并行机制的bi閥paas系统可以大大提高bi能力的数据处理性能,有效地支持电信运营的海量数据分析。
关键词:并行化;paas;商务智能;云计算;数据挖掘;分布式存储
bi閥paas: parallel閥based business intelligence system
英文作者名jiang zhi閥xiong1,2*, jin hai1, huang xiao閥qing2
英文地址(1.school of computer science and technology, huazhong university of science and technology, wuhan hubei 430074, china;
2. china mobile research institute, beijing 100053, china英文摘要)
abstract: concerning the challenge of massive information to the traditional business intelligence (bi) system, the prototype of a bi system (bi閥paas) based on parallel mechanism was designed and implemented. the structure was built upon the project named big cloud in china mobile, being powered by massively parallel computing and distributed storage and integrated with several technologies in terms of etl, dm, olap, report, etc. the results of the experiment prove that the function based upon parallel computing greatly raises the competency of data processing and effectively supports the data analysis.英文关键词
key words: parallelization; platform as a service (paas); business intelligence (bi); cloud computing; data mining (dm);distributed storage
0引言
随着业务的快速发展、用户的持续增加和移动互联网的兴起,中国移动正面临着数据的爆炸性增长。如何快速地处理海量数据,及时有效地从海量数据中提取有价值的信息,是中国移动的商务智能(business intelligence, bi)系统[1]亟须解决的问题。
bi系统从企业生产系统中提取出有用数据并进行清洗,然后经过抽取(extraction)、转换(transformation)和装载(load),即etl[2]过程,将数据合并到一个企业级的数据仓库里。在此基础上,利用合适的查询和分析工具、数据挖掘(data mining, dm)[2]工具、在线分析(online analytical processing, olap)[2]工具等对其进行分析和处理,最后形成知识,支持企业决策。
数据的海量增长,处理运算的日益复杂,使传统bi系统面临越来越大的压力,难以满足需求,主要体现为以下两点:
1)计算性能低。
传统的bi系统,其bi能力的实现往往采用基于内存的串行机制,即将数据全部或批量导入内存中,再依次进行处理,其处理性能受限于单台机器的内存容量和计算能力,无法支持海量数据的分析处理。
2)可扩展性差。
可扩展性是指处理性能随系统规模增长的能力[3],是设计bi系统所追求的一个重要目标。目前的bi系统缺乏一个设计良好、可扩展性强的架构,系统的效率不是随着计算资源的增加而呈线性增长,当系统到达一定规模时会出现效率降低、执行时间难以预测等问题。
为满足海量数据的计算要求,保持快速的响应和高性能执行,实现bi算法的并行化[4]是解决上述问题的关键。针对以上问题,本文从现代bi系统的需求出
文档评论(0)