- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
PAGE21
PAGE1
数据层(Dass)建设方案
XXX科技有限公司
20XX年XX月XX日
目录
TOC\o1-3\h\z\u一数据采集 4
1.1多数据源数据采集 4
1.2大数据环境的数据采集 4
1.3数据抽取 5
1.4数据清洗转换 6
1.5数据加载 6
1.6日志管理 7
二数据治理 8
2.1质量规则 8
2.2任务调度 9
2.3调度历史 9
2.4问题数据 9
三数据存储 15
四数据分析 16
五数据挖掘 23
5.1统计模型 23
5.2数据挖掘模型 23
5.3数据挖掘体系结构 25
5.4数据挖掘过程 25
5.5数据挖掘应用方式 26
六数据可视化 26
6.1数据源适配 27
6.2数据建模 27
6.3可视化编排 27
6.4组件库 28
6.5GIS套件 29
七数据资源库建设 29
7.1元数据库 30
7.2基础数据库 31
7.3主题数据库 31
7.4共享数据库 31
数据采集
要实现数据的共享与应用,首先需要实现数据的归集与汇总。数据采集源包括执法终端、视频监控、感知设备、便民终端等。通过数据采集系统,可以从不同结构的数据源中抽取数据(Extract),对数据进行复杂的加工处理(Transform),最后将数据加载到各种存储结构中(Load),满足当前各类数据源的数据采集需求。自动导入通用的数据库文件,能够实现数据库的增量数据的捕获。可以将外部互联网的非结构化文本、视频抓取后解析为结构化数据存入平台。
通过数据同步和数据采集工具实现各应用系统的数据集中,数据抽取方式支持基于数据库日志解析、触发器等方式,确保各业务系统的稳定运行。支持集群化部署,满足扩展性要求。
此外,系统需提供多种数据采集功能,全面的应对数据的采集与汇入,采集功能包括:手工录入、数据文件导入、非结构化数据采集、移动终端采集、ETL工具采集、其他系统数据接入。通过,这些采集功能来满足历史结构化数据与非结构化信息的同步导入与实时接入,使信息分析所依托的数据尽可能的丰富、全面。
多数据源数据采集
提供对多种数据源访问的封装,只需拖动相应的组件到控制台。数据源包括:数据库、文件系统、Property文件格式、Excel、Xml、LDAP、SOAP/WebServcie、CSV文件、RSS、MDX查询语言、Cube文件,StreamingXML数据流等各种数据源。
可支持的数据库包括:DB2、Oracle、MySQL、SQLServer、Sybase、Access等各种主流数据库。数据库连接支持集群和数据库分区访问。数据库连接的方式支持JDBC、ODBC等方式,提供了数据连接池功能,能够大大提高数据库的访问效率。
大数据环境的数据采集
在传统ETL能力基础之上增加了半结构化、非结构化的数据采集的能力,解决针对文本、音频、视频、电子邮件、网站数据的收集、转换和存储。支持各种数据源,包括数据库、文件系统、Excel、Xml等各种数据源。支持HADOOP大数据环境的数据采集(经测试的典型环境与版本详见下表),提供HBase的输入/输出转换组件,支持与非关系型数据库HBase进行数据交互,提供HadoopHDFS文件拷贝的任务组件,支持复制文件到HDFS和复制HDFS文件到本地,可连接的数据库类型支持HadoopHive,SQL查询组件支持编写HiveSQL进行数据查询,支持mongodb。
数据抽取
从不同数据源抽取数据,这些数据源来自于不同业务系统、不同数据库。
通过在数据传输过程中对数据加密,达到数据安全传输的目的。可以采用的加密组件包括:PGP加密/解密流、对称加密、生成密钥等。
在数据传输通道安全的基础之上,根据自有数据的时效性以及数据结构类型,分别采取准实时数据抽取、全量数据抽取、增量数据抽取。
(1)准实时数据抽取与装载
准实时数据按照结构化特性可分为结构化数据与半结构化数据,数据ETL需要通过日志解析的方式让大数据中心和源业务系统保持一致。另一方面,数据ETL需要准实时抽取关系型数据库事务日志,开发自定义程序实时解析数据库日志,并将结果存储至大数据中心。
支持通过Flume实时采集日志信息,支持高可用的、高可靠的、分布式的海量日志采集、聚合和传输,支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume支持对数据进行简单处理,并写到各种数据接收方(包括:kafka)。
(2)全量数据抽取与装载
全量数据抽取适用的场
文档评论(0)