- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
百度大数据即席查询服务
BaiduBigSQL/孙垚光
自我介绍
基础架构部分布式计算团队孙垚光
09年-11年:Linux内核/网络协议栈优化
11年-今:分布式计算/百度开放云Hadoop/Spark
百度开放云
?下一步计划
?
下一步计划
即席查询服务(BigSQL)
BigSQL定位/特点
BigSQL架构
BigSQL关键技术
BigSQL在Baidu内部的应用
即席查询服务(BigSQL)
BigSQL定位/特点
BigSQL架构
BigSQL关键技术
BigSQL在Baidu内部的应用
BigSQL定位
大数据即席查询(Ad-HocQuery)平台
PAAS:开箱即用,用户无需关心机器/集群的运维/细节
高性能/规模:裸机/优化/最大PB量级以上
低成本:多租户共享集群/按使用付费
BigSQL特点
数据格式:半结构化(CSV/JSON/Parquet/Protobuf等)
使用接口:易用/多样化(RestAPI/Console/CLI/JDBC)
语法集:兼容开源SparkSQL/HQL
按使用付费:按(Query复杂度+扫描数据量)计费
多用户协同:灵活的权限管理
Ad-HocQuery
面向“人”的查询
交互式(Interactive):
查询具有较高时效性
即席(Ad-Hoc):
查询模式相对不固定
数据没有(时间/成本)做过多预处理
即席查询vs多维分析
Ad-HocQuery
OLAP
数据密度
弱(半)结构化
高度结构化
加工过程
粗(浅)加工
深度加工
查询模式
相对随机
相对固定
MPP/Shared-Nothing
MPP/Impala
SQLonHadoop/SparkSQL
扩展性
1000台以内/PB以下
千台以上/PB以上
查询延迟
毫秒~秒
秒~分钟
架构复杂性
中等
复杂
容错
无
有
调度策略
Gang/Transaction
分批
启停开销
小/常驻进程
大/现启动
与存储结合程度
紧密
松散
QBigSQL示意图
Q
UserUserueryQuery
User
User
uery
Query
BigSQLService
Streaming
Batch
WebServer
Tools/SDK
BOS
即席查询服务(BigSQL)
BigSQL定位/特点
BigSQL架构
BigSQL关键技术
BigSQL在Baidu内部的应用
下一步计划
BigSQL整体架构
RESTAPISDK CLI Tools
RESTAPI
StateStore
接入层(HttpServer)SessionManager
IAM
SessionWorker
QueryQuery
SparkContext
账单
监控
SessionWorker
QueryQuerySparkContext
SessionWorker
SparkContextQueryQuery
SparkContext
MetaStore
Scheduler
ComputeStorageCluster
BigSQL整体架构:接入层
易用性:各种形式的API
可用性:关键节点容错
安全:租户认证和鉴权、Quota限制
账单
监控
BigSQL整体架构:引擎层
接入层
SessionWorker SessionWorker SessionWorker SessionWorker
计算引擎(Spark)
APP APP APP APP
Executor
Executor
Executor Executor
Executor
Executor
Executor
Executor
分布式缓存(CacheManager)
存储引擎(DFS/ColumnStorage)
即席查询服务(BigSQL)
BigSQL定位/特点
BigSQL架构
BigSQL关键技术
BigSQL在Baidu内部的应用
下一步计划
BigSQL关键技术(一)
高性能Shuffle
BigSQL关键技术(一)
高性能Shuffle
BigSQL关键技术(一)
BigSQL关键技术(二)
数据缓存层
User User
接入层
计算引擎(Spark)
CacheCacheManager
Cache
存储引擎(HDFS+Parquet)
BigSQL关键技术(二)
数据缓存策略
按需缓存
Query运行时触发Cachemiss,异步load到缓存
数据预取
周期性Load相关Table/Partition到缓存
根据过去Query信息统计热点数据,提前Load到缓存
典型案例:跨地域查询加速(提升至少一个数量级)
BigSQL关键技术(三)
优化执行
智能参数优化
利
文档评论(0)