大数据分析平台构建方案.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据分析平台构建方案

版权所有©德塔精要,转载请注明出处

一概述说明

传统的业务系统在运行较长周期后会积累了大量历史数据,这些

海量数据却没有得到有效的分析和利用,只是对数据进行简单的统计

分析获得一些表面、浅显、价值不高的结果。构建一个大数据分析平

台,结合多个业务系统从中抽取海量数据进行管理、整合、分析和利

用,从中发现潜在问题和有价值的规律,并通过可视化的方式进行展

示,能够为管理层提供科学决策的支持,提升企业业务能力和效益。

二大数据构建目标

(1)实现数据的共享和交换。将各应用系统的数据进行集成和整合,

使来源各异、种类不一的各类数据可以相互使用,丰富数据的来源,

打破系统间的信息孤岛,实现数据的共享和应用。

(2)大数据的采集和存储。研制数据适配接口,对接各应用系统获

取各类异构数据,并采用大数据主流的框架和系统对数据进行统一存

储,为数据的挖掘和分析打好基础。

(3)大数据分析与决策。采用数据挖掘、数理统计等相关技术,构

建大数据分析框架,提取数据中隐含的、未知的、极具潜在应用价值

的信息和规律,为企业的各项工作提供决策和指导。

三大数据构建原则

(1)安全性。大数据分析平台应采取安全性高的访问认证机制,同

时在平台建设中要充分重视系统自身的安全性以及其他应用系统的安

全性。

(2)可扩展性。大数据的分析和应用是一项长期持久的工作,随着

业务的变化,对于信息平台的规模和要求也会不断变化。因此,要求

平台的设计和实施要具有良好的扩展性,以满足不断发展变化的要求。

(3)灵活性。在平台的设计和实施中要考虑到与其他应用系统的

整合,开发出多个类型的接口,能够灵活接入其他系统、拓展服务类

型。

四大数据总体框架

基于Hadoop技术的数据分析平台自下而上一般分为三个部分,

分别为:数据层、大数据采集与存储、数据分析及展示。

(1)数据层,针对不同系统进行分析,制定系统数据采集范围与目

标,收集各个业务系统产生的各类数据,将各种结构化和非结构化数

据进行整合,为大数据的分析提供支撑。

(2)大数据采集与存储旨在为各类异构数据研制适配接口,与其他

各系统对接,并为数据提供适配、转换、存储等基本管理功能,基本

步骤包括:

a.数据抽取:针对大数据分析平台需要采集的各类数据,分别有

针对性地研制适配接口。对于已有的信息系统,研发对应的接口模块

与各信息系统对接,不能实现数据共享接口的系统通过ETL工具进行

数据采集,支持多种类型数据库,如SQLSERVER,ORACLE,

ACCESS等数据库,按照相应规范对数据进行清洗转换,从而实现数

据的统一存储管理。对于其他数据,需要具体根据数据情况实现相关

接口,利用对应接口获取相关数据信息,进而完成数据的抽取。

b、数据预处理:为使大数据分析平台的MAPREDUCE算法能更

方便对数据进行处理,同时为了使得数据的存储机制扩展性、容错性

更好,需要把通过数据按照相应关联性进行组合,并将据转化为文本

格式,作为文件存储下来。

c、数据存储:为了提升数据存储的扩展性和容错性,采用主流的

大数据框架Hadoop的HDFS文件系统对各类数据统一进行文本化存

储,数据按相应规则存储,实现每日保存一套完整数据文件集,形成

数据仓库。

(3)数据分析和展示是核心业务层,通过数据报表工具,根据需求

制定多样的,针对性的数据报表。通过基于的Hadoop的

MapReduce编程模型实现的数据分析系统,针对存储的数据进行数

据处理、算法运行、结果转换操作,将结果保存为报表文件,每日形

成的报表文件集。报表展现系统将生成的报表文件以可视化方式进行

展现。

文档评论(0)

1367076134 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档