- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据湖与数据仓库的对比及数据湖主流开源框架
一、 数据湖与数据仓库的对比
数据仓库可提供可报告的结构化数据模型。这是数据湖与数 据仓库的最大区别。数据湖存储的是非结构化的原始数据,并未 定义具体用途。
数据在存入数据仓库前,需要进行处理,决定哪些数据将会 或不会存入数据仓库,这被称为“写时模式”。
在存入数据仓库前,数据的重新定义过程既耗时又艰难,有时需要花费数月甚至数年时间,导致用户无法及时收集数据。利用数据湖,用户就可以即时开始收集数据,并确定其将来的用途。
鉴于其结构特点,商业分析员和提前知道自己需要用哪些数 据完成定期报告的商业用户通常会使用数据仓库。而数据湖则多 用于数据科学家和分析师,因为他们需要用数据进行研究,并且 在使用前,数据需要经过更加高级的过滤和分析。
数据湖和数据仓库使用的存储硬件通常也不相同。数据仓库 的存储硬件较为昂贵,而数据湖的存储硬件会便宜些(虽然体积 较大),因为它们通常使用的是商用硬件。
数据湖与数据仓库的对比如表 1 所示。
表 1 数据湖与数据仓库特性对比
特性 数据仓库
数据 来自事务系统、运营数据库和业务线应用程序的关系数据
数据湖
来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据
模式 设计在数据仓库实施之前
(schema-on-write)
性价比 更快查询结果会带来较高存储
成本
数据质量 可作为重要事实依据的高度监
管数据
用户 业务分析师
写入在分析时(schema-on- read)
更快查询结果只需较低存储成本
任何可以或无法进行监管的数据(例如原始数据)
数据科学家、数据开发人员和业务分析师
分析 批处理报告、BI 和可视化 机器学习、预测分析、数据发
现和分析
二、 数据湖主流开源框架
目前市面上流行的三大开源数据湖方案分别为:Delta Lake、
Apache Iceberg 和 Apache Hudi。
(一) Delta Lake
Delta Lake 由Databricks 推出,是一个开源的存储层,用以将 ACID 事务引入 Apache Spark 和大数据工作负载中。Delta Lake 拥有模式约束(Schema Enforcement)来防止低质量的数据流入,并且在存储层上也具有良好的抽象性,允许同时存在多个 不同的存储层。
图 2 Delta Lake 架构图
Databricks 在设计 Delta Lake 时,希望做到流式作业和批处理作业在数据层面的进一步的统一,如图 3。
文档评论(0)