飞轮科技:走向现代化的数据仓库-Apache Doris和SelectDB精选案例集(2024版).pdfVIP

飞轮科技:走向现代化的数据仓库-Apache Doris和SelectDB精选案例集(2024版).pdf

  1. 1、本文档共277页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

走向现代化的数据仓库

ApacheDoris和SelectDB精选案例集

飞轮科技出

©飞轮科技2024版️

ApacheDoris:

SelectDB:

邮箱:contact@

电话:400-092-6099关注我们在线咨询联系我们

走向现代化的数据仓库

作者马如悦飞轮科技创始人及CEO

一、数据仓库的诞生

自计算机诞生之初,其便以强大的计算能力在科学计算领域崭露头角。1946年,ENIAC的问世,主要用来

满足美国军方对火炮弹道计算的迫切需求,这也标志着计算机时代的正式开启。然而,随着计算机技术的

不断成熟,特别是对数据处理的需求日益增长,其应用领域逐渐扩展到商业领域。

起初,数据通过打孔卡片、穿孔纸带及顺序读写的磁带进行存储与处理,效率低下且容量有限。直至20世

纪70年代,大容量磁盘技术的诞生,以其支持随机读写的特性,极大地提升了数据存取的效率,为数据库

系统的诞生奠定了坚实基础。数据库系统迅速成为在线事务处理(OLTP)的核心工具,广泛应用于航空预

订、银行系统等关键业务领域。

在这过程中,企业逐渐认识到数据背后蕴藏的巨大价值,以及通过数据分析提取有价值信息的重要性。

正是这一认知的转变,催生了数据仓库技术的诞生与发展。

二、数据仓库的演进历程

数据仓库的发展已历经三十余年,其间经历了两次显著的技术迭代,目前正步入全面现代化与革新的新阶段。

第一阶段:传统数据仓库(约1990年-2005年)

这一阶段,主要以存算一体的分析型数据库为底层核心技术,提供面向结构化数据、SchemaonWrite的

存储系统,并基于MPP架构提供高性能查询系统。

20世纪80年代末,Teradata和Gamma项目开创了MPP并行数据处理架构在海量数据处理中的广泛应

用。1992年,Teradata公司为沃尔玛构建了全球第个超过TB级别的数据仓库系统。1993年,“关系数

据库之父”EdgarCodd在他的白皮书《ProvidingOLAPtoUser-Analysts:AnITMandate中首次提出

了OLAP这个名词。列式存储的普及,提升了查询效率与存储空间的利用率,在2005年新创建的Vertica

和Greenplum都全面采用了列式存储格式。

第二阶段:大数据平台(数据湖分析)(约2005年-2020年)

随着互联网的蓬勃发展,大数据时代的到来对数据处理提出了更高的要求。存算分离的大数据平台或数据湖

成为主流的数据分析基础设施。在存储上,提供SchemeonRead的存储系统,以便灵活存储结构化、半结

构化和非结构化数据;在计算上,支持各种批量或者流式分析和计算引擎,并支持机器学习和AI计算引擎。

从2003年到2006年,Google先后发布了GFS、MapReduce和Bigtable三篇论文,标志着大数据平台

的正式登场。从2006年到2014年,ApacheHadoop、ApacheHive、ApacheSpark、Apache

Kafka、ApacheFlink等多个项目相继启动。

第三阶段:现代化数据仓库(约2020年-2035年)

当前,数据仓库正步入第三个发展周期,致力于在实时性、湖仓融合及云原生化三个方面实现现代化提升。

实时性:实时主要是指降低数据延迟和查询延迟。现代化数据仓库需要实现秒级别的数据导入和高并发

的毫秒级查询。实时数仓主要倡导者有Doris/SelectDB、ClickHouse、Elasticsearch等。

湖仓融合:融合传统数据仓库的高性能和数据湖的开放性。现代化数据仓库需要灵活应对半结构化/非结

构化数据的存储和分析;查询引擎可作为联邦查询引擎,访问除内表之外的其他数据源;存储引擎除了

支撑SQL查询分析

您可能关注的文档

文档评论(0)

如此醉 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档