腾讯大数据基础平台介绍.docxVIP

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

腾讯大数据基础平台介绍

赵伟

架构挑战及应对

千万级-亿级

同城-异地-全球

P级数据深度应用

海量

打造核心技

99.9%-99.99%+

核心业务做到0停机维护

应用级灾备

安全

稳定

降低业务处理成本

去IOE厂商绑定

成本

术,快速提升企业竞争力!

质量更可控

开发更简单

快速实现

速度

2

数据平台部

大数据基础平台

Gaia–yarn

TDBank–flume

TDW–hadoophivepostgrehbase

TRC–storm

3

数据服务秒级监控分布式存储HDFS/HBase/…TDBank

数据服务

秒级监控

分布式存储

HDFS/HBase/…

TDBank

DataAPI

计费服务用户接入

计费服务

用户接入

SDK:H5/iOS/Android…

业务逻辑

TDF:配置/日志/协议/路由/权限/容错/容灾…

关系型存储

TDSQL

数据产品

精准推荐/多维分析/…

实时计算

TRC

离线计算

TDW

资源调度

资源调度

Gaia

1Gaia资源管理与调度

1

平台简介

丰富资源管理维度

优化资源管理策略

优化资源调度器

应用情况

Gaia–基于Yarn的改进

Yarn——asClusterOperationSystem。

GAIA—基于Yarn的通用资源调度平台,提供高并发任务调度和资源管理,实现集群资源共享,可伸缩性和可靠性,不仅可以为MR等离线业务提供服务,还可以支持实时计算,甚至在线service业务。

将一个数据中心的硬件资源逻辑上整合成一台服务器

为云应用软件提供统一、标准的接口

管理海量的任务以及资源调配

Gaia–增加资源管理维度

相对于Yarn,增加了networkIO和diskspace的资源管理

资源维度

Yarn

GAIA

Memory

?

?

Cpu

?

?

Diskspace

?

?

NetworkIO

?

?

网络出带宽

网络入带宽

磁盘容量

基于LinuxCgroup和HTB

层级化HTB结构

剩余出带宽基于job优先级再分配:提高资源利用率

修改Linuxkernel,已发社区patch

通过令牌桶给网络包打标记

通过ENC+丢包来限速

统一的工作目录:便于用户编写和调试分布式程序

多磁盘:为job提供更大磁盘空间,充分利用磁盘I/O并发

Gaia–优化资源管理策略

CPU管理:

资源超发:提高资源利用率

基于优先级调整cpu.share

cpu利用率提升

高优先级job的服务质量得到保证

内存管理:

层级化LinuxCgroup结构

hardlimit限制所有job的内存使用总量

softlimit限制单个job的内存使用量

Gaia–优化资源调度器

Yarn调度器特点:

多种可插拔调度策略

考虑job的公平性和优先级

Gaiascheduler的优化:

提升调度吞吐,毫秒级的下发

提升可扩展性,适应更大规模集群

关键技术点:

Profiling优化关键路径

调度与心跳处理解耦和

细化锁粒度,减少线程间竞争

异步化并行化处理

Gaia–应用情况

上层业务包括MR、Hive、PIG、Strom等

为业务提供自动的容灾、资源管理与调度、权限管理

、自动扩容缩容支持等

目前单集群达1000节点,今年目标是单集群8800节点

,将会建成业内最大集群

2TDBank数据接入平台

2

技术架构

技术特点

应用状况

消息分拣中心︵分布式缓存︶消息存储中心消息接入中心业务数据源TDBank

消息分拣中心

︵分布式缓存︶

消息存储中心

消息接入中心

业务数据源

DBAgent公网自动入库日志Agent内网TDW离线存储消息Client

DBAgent

公网

自动入库

日志Agent

内网

TDW

离线存储

消息Client

自动对接

TRC

在线应用

主要负责:从业务数据源端实时采集数据,进行预处理和分布式消息缓存后,按照消息订阅的方式,分发给后端的离线和在线处理系统

TDBank-技术特点

灵活:支持DB、LOG日志、实时消息等多种接入方式

低成本:支持公网传输,数据压缩

高可靠:消息传输过程失败重发和滤重机制,保障一致性

低时延:流式数据处理,毫秒级消息分发

可复用:7天数据缓存,消息可被多次订阅

快捷:自动入库,并能自动与实时计算等应用对接

TDBank-应用现状

最高超过5500亿,日接入数据量80TB

接入业务接口超过6000个,包括微信、QQ、Qzone、游戏、电商、媒体等重点平台数据

支撑广点通、电商、视频和游戏等精准推荐,以及微信数据分析等实时分析和产品报表

2013年8

2013年8月

1000亿/天

2014年3月

5500亿/天

2013年3月

100亿/天

文档评论(0)

176****7010 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档