- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第4章数据仓库技术架构
4.1数据仓库技术场景分析
4.2数据仓库技术方案
引例思考
如何面对海量数据进行有效采集、存储、计算和分析,让用户联机任意查询,并获得有用的查询结果,对企业来说是一种挑战。请思考:
(1)具体技术场景如何,具备哪些特点?
(2)如何进行技术选型?
(3)海量数据的采集和存储如何解决?
(4)海量数据的计算任务有哪些,如何组织和应用?
(5)海量数据如何组织数据的分析查询和联机分析?
数据存储
数据采集与集成
数据仓库
技术场景分析
数据仓库特点
数据仓库技术选型
数据仓库
技术场方案
数据计算
任务调度
数据仓库
技术架构
数据仓库技术场景分析
4.1
数据仓库特点
数据仓库(OfflineDataWarehouse)作为数据仓库的一种重要类型,具有一系列显著的特点,这些特点主要体现在数据容量、数据时效性、数据处理方式、应用场景以及数据模型等方面。数据仓库以其批处理方式、相对较低的数据时效性、高容量、广泛的应用场景以及面向主题的数据模型等特征,在企业数据管理和决策支持中发挥着重要作用。
数据仓库技术选型
大数据数仓的技术选型是一个综合性的过程,涉及数据采集、数据集成、数据存储、数据计算、任务调度和OLAP联机分析处理等多个环节。
技术选型
技术框架
数据采集
ApacheFlume(海量日志采集、聚合和传输系统)
数据集成
ApacheSeaTunnel(数据集成框架)
数据存储
ApacheHadoop(HDFS分布式文件系统)
数据计算
ApacheSpark(计算引擎)、ApacheHive(数仓处理工具)
任务调度
ApacheDolphinScheduler(工作流调度平台)
OLAP联机分析处理
ApacheKylin(分布式分析数据库,可提供多维分析能力)
数据仓库技术选型
数据仓库技术方案
4.2
数据仓库技术方案
数据仓库的技术方案是一个复杂而系统的过程,主要是通过数据采集、数据集成、数据存储、数据计算、任务调度和OLAP联机分析处理等关键技术路线的有机结合,实现了对历史数据的全面采集、高效存储、深度加工和便捷查询等功能,对于数据仓库技术方案的设计应基于上述技术场景分析和技术选型的基础上,针对特定问题或需求提出的具体解决方案。
数据仓库技术方案:
数据采集:负责从各种数据源收集数据,包括批量导入工具和实时数据流处理工具。
数据存储:在数据采集过程中需要指定采集数据的存储系统。这层包括分布式文件系统(如HDFS)、NoSQL数据库和数据仓库等存储解决方案。
数据计算:对存储系统的数据进行预处理、清洗、转换和分析。这包括批处理技术(如MapReduce)、流处理技术(如ApacheFlink和ApacheStorm)以及内存计算框架(如ApacheSpark)。
数据分析:提供高级数据处理功能,如机器学习、图形处理和复杂事件处理。这层通常利用各种大数据分析工具和算法库。
数据访问与展示层:方便用户访问处理后的数据,并以可视化的形式展现出来。这通常涉及报表、仪表板和数据可视化工具。
数据仓库技术方案--数据采集与集成
数据采集又称为数据获取,在大数据场景下的数据采集是指从各类数据源中获取数据并传输到数据存储引擎上的技术框架,目前开源领域的主流的数据采集框架包括ApacheFlume、DataX等。
数据集成是一个数据整合过程,是指通过各类数据源,将异构数据整合归纳在一起,对各类异构数据的数据格式、取值方式在落地存储之前进行集成,去除冗余保证数据质量,目前开源领域的主流的数据集成框架是ApacheSeatunnel。
DB
文件
NoSQL数据库
HDFS、Hive
数据采集
数据集成
数据采集与集成处理流程
数据仓库技术方案--数据存储
数据存储是信息技术中至关重要的一个环节,涉及将数据以某种格式保存起来,以便在需要时能够方便地检索和使用。在离线数仓的上下文中,数据存储特指将采集到的业务数据按照一定的组织结构和存储策略保存在数据仓库中,以支持后续的数据分析和决策过程。目前广泛使用的数据存储方式分为结构化数据、半结构化数据和非结构化数据。
半结构化数据
非结构化数据
数据存储系统
结构化数据
数据存储与数据存储格式
数据仓库技术方案--数据计算
1计算分类:
数据计算主要包括了离线计算、实时计算、图计算和即席查询,而在数据仓库的构建过程中主要使用HadoopMapReduce、Hive和ApacheSpark计算框架和计算工具。
离线计算
实时计算
图计算
即席查询
数据计算
分类
2计算方式:
在数据仓库构建过程中,处理和分析大数据
文档评论(0)