mes的a - 跨区域复制-近实时-可扩展数据仓库.pdf

mes的a - 跨区域复制-近实时-可扩展数据仓库.pdf

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
mes的a - 跨区域复制-近实时-可扩展数据仓库

Mesa: 跨区域复制、近实时、可扩展数据仓库 作者:Ashish Gupta, Fan Yang, Jason Govig, Adam Kirsch, Kelvin Chan Kevin Lai, Shuo Wu, Sandeep Govind Dhoot, Abhilash Rajesh Kumar, Ankur Agiwal Sanjay Bhansali, Mingsheng Hong, Jamie Cameron, Masood Siddiqi, David Jones Jeff Shute, Andrey Gubarev, Shivakumar Venkataraman, Divyakant Agrawal Google, Inc. 译者: 李毅 中国惠普大学资深培训专家 摘要 Mesa 是一个高度可扩展的分析型数据仓库系统,它存储了Google 互联网广告业务相关的 关键测量数据。Mesa 的设计目标是满足一些复杂、极具挑战的用户和系统的需求,包括近 实时地数据采集及查询能力,也包括高可用性、稳定性、容错及海量数据与查询量的可扩 展性。尤其是Meas 处理着PB 级的数据、每秒钟完成数百万行更新并且每天承担需要抽取 数万亿行来完成的数十亿次查询。Mesa 支持跨多个数据中心的复制,从而确保即使一个数 据中心实效也能在低延迟的情况下保持一致性和可重复的查询。本论文介绍了Mesa 系统 和展现了它所达到的性能和扩展性。 1. 介绍 Google 运营着一个庞大、多个渠道交叉的广告平台,它每天承载着全球用户 的数十亿个广告。每一条广告相关的具体信息,诸如定向标准、展现和点击的数量 等等,都需要进行实时地记录和处理。这些数据在Google 被广泛地用于不同用户 场景中,包括报表、内部审计、分析、收费和预测。通过与一个复杂的前端服务交 互 –调用底层数据仓库的在线即时查询,广告主能够精细洞察他们的广告活动成 效。Google 的内部广告支撑平台实时地使用这些数据来确定预算以及根据之前投 放的广告效果来加强当前及未来广告的关联性。随着Google 广告平台的不断扩大 而且内部和外部客户强烈要求能够更深入地洞察其广告活动,对更多具体、细颗粒 度信息的需求导致数据规模急剧地增长。数据的规模及业务的关键性质导致在处 理、存储和查询方面独特的技术和操作挑战。对这样一个数据仓库的需求包括: 原子级更新。一个用户的操作可能导致关系数据层面的多次更新 –影响数千个 一致性视图,这些视图是基于一组涵盖某个维度集(例如,广告主和国家)的指标 (例如点击量和成本)而定义的。当一个系统的当前状态是只有部分被更新的情况 下是绝对不可能进行查询的。 一致性和正确性。出于商业和法律原因,该系统必须返回一致且正确的数据。即 使一个查询牵涉多个数据中心,我们也需要强一致性和可重复的查询结果。 可用性。该系统必须不存在任何单点故障。在计划内或计划外维护或故障中都没 有停机时间,即使是断电影响了一个数据中心或某个地理区域。 近实时的更新吞吐量。该系统必须支持持续地更新,而更新量将是每秒数百万行 –即有新建的行也有对现有的行做增量更新。这些更新在几分钟内就应该可以用 于跨不同视图和数据中心的一致性查询。 查询性能。该系统必须支持需要低延迟的即时用户表报及高吞吐量的批量提取功 能来满足对于延迟很敏感的用户需的求。总体而言,该系统必须在能够使得第九十 九个百分位的查询延迟在数百毫秒内而每天的总体查询吞吐量是抽取数万亿的行。 可扩展性。该系统必须能够随着数据规模和查询量的增长而扩展。例如,它必须 支持数万亿行和PB 级的数据。当这些参数显著增长时也能保持更新和查询的性 能。 在线的数据和元数据变换。为了支持新功能的交付或现有数据颗粒度的变化,客 户通常需要变换数据schema 或修改现有数据的值。这些变更不能影响正常的查询 和更新操作。 Mesa 是google 应对这些技术和操作挑战的解决方案。尽管现有的数据仓库系统能够 解决这些需求的一部分,但Mesa 的独特之处就在于同时解决了业务关键数据的所有问 题。Mesa 是一个

文档评论(0)

maxmin + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档