数据编织的性能—数据虚拟化架构比较-2024.08-19正式版-WN8.doc

数据编织的性能—数据虚拟化架构比较-2024.08-19正式版-WN8.doc

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

白皮书

数据编织的性能

数据虚拟化架构比较

作者:PabloálvarezYá?ez

?2024DenodoTechnologies

目录

I3

概述

I4

引言:数据虚拟化架构

专用数据虚拟化层

4

具有数据虚拟化扩展的数据引擎

4

I5

数据虚拟化架构中的查询执行比较

专用数据虚拟化层

5

具有数据虚拟化扩展的数据湖引擎

7

混合方法

9

其他加速技术

10

缓存

10

聚合感知加速

10

I11

基准测试

基准测试查询

12

环境规格

13

基准测试场景

13

场景1

:访问外部源

14

场景2

:联合两个外部源

15

场景3

:联合数据湖和小型外部源

16

场景4

:联合数据湖和大型外部源

17

I18

总结

概述

数据编织背后的一个关键思想是,能够通过一个易于使用的中心化接

从业务角度来看,数据编入点访问组织中的任何数据资产。最终用户不必应对幕后的复杂数据

生态系统,也不需要了解组织中每个数据库和应用程序的实质细节。

织的主要目标是创建一个

敏捷平台,通过自助服务

数据虚拟化层可以实现这一点,它可以抽象出复杂性,并提供中心化

数据层,以业务部门可以

的接入点。除了集中访问之外,该层通常还提供其他功能,如缓存、

理解和使用的方式公开数

安全、建模和跨源联合等,能够在整个组织中统一实施。即使公司数

据,从而缩短获取数据的据分散在数十个异构系统中,这些功能仍将让最终用户感觉,所有数

时间。据都整合并存储在单一系统中。

数据编织供应商采用两种主要架构提供这种功能:

专用数据虚拟化层

具有数据虚拟化扩展的数据引擎

在这份白皮书中,我们将详细探讨这两种架构,并重点关注这些实现决策对查询执行性能的影响。

为进一步说明这两种架构之间的差异,我们使用TPC-H

展开广泛的基准测试,展示这两种架构在不同场景下的表现。

您可以在下面的“基准测试”小节中找到测试方法和环境规格的详细说明。在这里,我们先简要总结测试结果。

专用数据虚拟化层:具有数据虚拟化扩展的数据引擎:场景Denodo

平台领先的数据湖供应商

访问外部源26.525小时8分28

秒秒

联合两个外部源3分192小时27分15

秒秒

联合数据湖和小型外部源2分29秒2分13

联合数据湖和大型外部源6分16秒4小时10分32

这些结果展示了分布式环境中专用数据虚拟化层的强大能力。在这种环境下,其引擎的复杂程度和专业化程度超越了

数据湖并行引擎在访问外部数据集和多源数据联合的潜在优势。

?2024DenodoTechnologies3

引言:数据虚拟化架构

数据管理供应商采用两种主要的数据虚拟化技术来提供跨多个数据源的通用访问层。在本节中,我们将比较它们的

共通点和差异。

专用数据虚拟化层

在这类架构中,虚拟化层位于所有数据源之上,提供一个中心化接入点。它分析传入的查询并将每个请求转发到包

含相应数据的数据源。这个过程被称为“查询下推”或“查询委托”。由于查询可能涉及来自多个数据源的表,因

此这类软件需要包含具有跨数据源联合功能的引擎和目的驱动型优化器。缓存、聚合感知加速等技术被频繁使用。

Denodo

就是这类技术提供商。

具有数据虚拟化扩展的数据引擎

在这类架构中,数据系统包含一个扩展,不仅能够链接自有数据,也能链接外部数据源。这种架构例子早期包括

OracleDB链接或MicrosoftSQLServer链接服务器等工具。目前,许多具备并行处理MPP

功能的数据湖引擎都实现

了此类架构,如Spark、Dremio或Starburst(Trino)

。因此,对于这一类别,本白皮书的重点将放在数据湖引擎上。

在这些系统中,当请求外部数据时,工作器节点会查询外部表,并将其输入并行引擎处理管道。此类供应商也提供

缓存之类技术。

专用数据虚拟化层

传统

DB

和DW

数据湖/

湖仓一体

数据湖

分布式文件系统

传统

DB和DW

Excel

分布式文件系统

(S3、ADLS、HDFS

专用数据虚拟化对比数据湖扩展

两种架构都允许最终用户在分布式数据环境中运行查询,但处理方式显著不同。下一节我们将深入探讨这些设计差

异对查询执行性能的影响。

值得注意的是,专用数据虚拟化解决方案通常包含额外功能(例如高级建模、数据沿袭和治理),用于创建和管理

跨多个数据源的语义层。数据湖供应商往往更关注针对对象存储中的数据执行查询,这些功能的分析不在本白皮书

讨论范围之中,您可以在白皮书《释放数据生态系统的全部潜力》中找到更深入的讨论。

?2024DenodoTechnologies4

数据虚拟化架构中的查询执行比较

现在,让我们来重点

文档评论(0)

中国邮电传媒 + 关注
实名认证
内容提供者

不能下载请联系!本账号发布文档部分原创,部分来源于互联网和个人收集,仅用于技术分享交流,版权为原作者所有,侵删。

版权声明书
用户编号:8071012126000004

1亿VIP精品文档

相关文档