百度大数据即席查询技术.docxVIP

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

百度大数据即席查询服务

BaiduBigSQL/孙垚光

自我介绍

基础架构部分布式计算团队孙垚光

09年-11年:Linux内核/网络协议栈优化

11年-今:分布式计算/百度开放云Hadoop/Spark

百度开放云

?下一步计划

?

下一步计划

即席查询服务(BigSQL)

BigSQL定位/特点

BigSQL架构

BigSQL关键技术

BigSQL在Baidu内部的应用

即席查询服务(BigSQL)

BigSQL定位/特点

BigSQL架构

BigSQL关键技术

BigSQL在Baidu内部的应用

BigSQL定位

大数据即席查询(Ad-HocQuery)平台

PAAS:开箱即用,用户无需关心机器/集群的运维/细节

高性能/规模:裸机/优化/最大PB量级以上

低成本:多租户共享集群/按使用付费

BigSQL特点

数据格式:半结构化(CSV/JSON/Parquet/Protobuf等)

使用接口:易用/多样化(RestAPI/Console/CLI/JDBC)

语法集:兼容开源SparkSQL/HQL

按使用付费:按(Query复杂度+扫描数据量)计费

多用户协同:灵活的权限管理

Ad-HocQuery

面向“人”的查询

交互式(Interactive):

查询具有较高时效性

即席(Ad-Hoc):

查询模式相对不固定

数据没有(时间/成本)做过多预处理

即席查询vs多维分析

Ad-HocQuery

OLAP

数据密度

弱(半)结构化

高度结构化

加工过程

粗(浅)加工

深度加工

查询模式

相对随机

相对固定

MPP/Shared-Nothing

MPP/Impala

SQLonHadoop/SparkSQL

扩展性

1000台以内/PB以下

千台以上/PB以上

查询延迟

毫秒~秒

秒~分钟

架构复杂性

中等

复杂

容错

调度策略

Gang/Transaction

分批

启停开销

小/常驻进程

大/现启动

与存储结合程度

紧密

松散

QBigSQL示意图

Q

UserUserueryQuery

User

User

uery

Query

BigSQLService

Streaming

Batch

WebServer

Tools/SDK

BOS

即席查询服务(BigSQL)

BigSQL定位/特点

BigSQL架构

BigSQL关键技术

BigSQL在Baidu内部的应用

下一步计划

BigSQL整体架构

RESTAPISDK CLI Tools

RESTAPI

StateStore

接入层(HttpServer)SessionManager

IAM

SessionWorker

QueryQuery

SparkContext

账单

监控

SessionWorker

QueryQuerySparkContext

SessionWorker

SparkContextQueryQuery

SparkContext

MetaStore

Scheduler

ComputeStorageCluster

BigSQL整体架构:接入层

易用性:各种形式的API

可用性:关键节点容错

安全:租户认证和鉴权、Quota限制

账单

监控

BigSQL整体架构:引擎层

接入层

SessionWorker SessionWorker SessionWorker SessionWorker

计算引擎(Spark)

APP APP APP APP

Executor

Executor

Executor Executor

Executor

Executor

Executor

Executor

分布式缓存(CacheManager)

存储引擎(DFS/ColumnStorage)

即席查询服务(BigSQL)

BigSQL定位/特点

BigSQL架构

BigSQL关键技术

BigSQL在Baidu内部的应用

下一步计划

BigSQL关键技术(一)

高性能Shuffle

BigSQL关键技术(一)

高性能Shuffle

BigSQL关键技术(一)

BigSQL关键技术(二)

数据缓存层

User User

接入层

计算引擎(Spark)

CacheCacheManager

Cache

存储引擎(HDFS+Parquet)

BigSQL关键技术(二)

数据缓存策略

按需缓存

Query运行时触发Cachemiss,异步load到缓存

数据预取

周期性Load相关Table/Partition到缓存

根据过去Query信息统计热点数据,提前Load到缓存

典型案例:跨地域查询加速(提升至少一个数量级)

BigSQL关键技术(三)

优化执行

智能参数优化

文档评论(0)

176****7010 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档