数据仓库建设策划方案.pdfVIP

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第1章数据仓库建设

1.1数据仓库总体架构

专家系统接收增购项目车辆TCMS或其他子系统通过车地通信

传输的实时或离线数据,通过一系列综合诊断分析,以各种报表图

形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障

将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。

依照专家系统数据仓库建设目标,结合系统数据业务规范,包

括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库

架构如下:

1/54

数据仓库架构从层次结构上分为数据采集、数据存、数据分析、

数据服务等几个方面的内容:

数据采集:负责从各业务自系统中汇合信息数据,系统支撑

Kafka、Storm、Flume及传统的ETL采集工具。

数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模

式,支持海量数据的分布式存储。

数据分析:数据仓库体系支持传统的OLAP分析及基于Spark

2/54

常规机器学习算法。

数据服务总线:数据系统提供数据服务总线服务,实现对数据

资源的统一治理和调度,并对外提供数据服务。

1.2数据采集

专家系统数据仓库数据采集包括两个部分内容:外部数据汇合、

内部各层数据的提取与加载。外部数据汇合是指从TCMS、车载子

系统等外部信息系统汇合数据到专家数据仓库的操作型存储层

(ODS);内部各层数据的提取与加载是指数据仓库各存储层间的数

据提取、转换与加载。

1.2.1外部数据汇合

专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载

子系统等相关子系统,数据采集的内容分为实时数据采集和定时数

据采集两大类,实时数据采集要紧关于各项检测指标数据;非实时

采集包括日检修数据等。

3/54

依照项目信息汇合要求,列车指标信息采集具有采集数据量大,

采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集

方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时

系统应该灵活可配置,可依照业务的需要进行灵活配置横向扩展。

本方案在数据采集架构采纳Flume+Kafka+Storm的组合架构,

采纳Flume和ETL工具作为Kafka的Producer,采纳Storm作为

Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对

问题指标进行预警。具体采集系统技术结构图如下:

4/54

1.2.1.1数据汇合架构功能

Flume提供了从console(操纵台)、RPC(Thrift-RPC)、text(文

件)、tail(UNIXtail)、syslog(syslog日志系统,支持TCP和UDP

等2种模式),exec(命令执行)等数据源上收集数据的能力。Flume

的数据同意方,能够是console(操纵台)、text(文件)、dfs(HDFS

文件)、RPC(Thrift-RPC)和syslogTCP(TCPsyslog日志系统)等。

在我们系统中由kafka来接收。

Kafka分布式消息队列,支撑系统性能横向扩展,通过增加

broker来提高系统的性能。

Storm流处理技术,支撑Supervisor横向扩展以提高系统的

扩展性和数据处理的实时性。

1.2.1.2采集架构优势

解耦

(一)

在项目中要平衡数据的汇合与数据的处理性能平衡,是极其

困难的。消息队列在处理过程中间插入了一个隐含的、基于

数据的接口层,两边的处理过程都要实现这一接口。这同意

5/54

你独立的扩展或修改两边的处理过程,只要确保它们遵守同

文档评论(0)

189****3155 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档