- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
淘宝Hadoop应用分布式数据处理实践.ppt
* * * 淘宝分布式数据处理实践 淘宝数据平台及产品部 周敏 zhouchen.zm@ 2010-09-04 主要内容 淘宝的数据 云梯介绍 对Hadoop的主要功能扩展与改造 Hive实践 对Hive的改造 分布式数据仓库构思 淘宝的数据 Oracle 备库 MySQL 备库 日志系统 云梯1 TimeTunnel JDBCDUMP 数据平台 有哪些信誉好的足球投注网站 支付宝 B2B 云梯2 Gateway Servers 数据魔方 量子统计 口碑 DataExchange 爬虫数据 Map Reduce Java Jobs Streaming Jobs Hive Jobs 广告 BI 淘数据 推荐系统 有哪些信誉好的足球投注网站排行 … 淘宝数据的形状 核心数据来源于Oracle备库 大部分数据结构化,数据具有模式 稠密 云梯1规模 总容量9.3PB, 利用率77.09% 总共1100台机器 Master:8CPU(HT),48G内存,SAS Raid Slave节点异构 8CPU/8CPU(HT) 16G/24G内存 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD 12/20 slots 约18000道作业/天, 扫描数据:约500TB/天 用户数474人, 用户组38个 云梯1规模-slave Slave机器异构 6T机器磁盘利用率较高 Rebalance 单机速度控制:10M/s 每天9:00 ~ 23:30运行 Slave故障率 每周10 ~ 20次硬盘故障 每周1 ~ 2次主板或其他故障 云梯1 Hadoop版本 基于0.19.1 大量Patch 主要来自官方社区0.19.2, 0.20, 0.21等 自己开发的 Hadoop客户端和服务端代码开发分离, 云梯管理员只负责服务端升级, 并保持版本向下兼容 云梯主要功能扩展 安全性 密码认证 (hadoop.job.ugi) 扩展ACL,用户访问其他组的数据(开发中) Scheduler 基于FairScheduler的改造 slots动态调整(网页形式,每小时更新) 各个组使用自己的资源 Slave单磁盘容错 DataNode坏掉一块磁盘不需要停止,减少数据分发 TaskTracker坏掉一块磁盘后不对作业造成影响 Master节点容灾方案 3个Master + 1个Standby节点 配置文件一致,上传至SVN Virtual IP (NameNode和JobTracker) JobTracker无元数据,JobHistory每天备份七天前的历史文件 NameNode和SecondaryNameNode Check point 1天做一次(晚上8点之后),降低NameNode启动时间 Fsimage和edits同时通过NFS写到SNN上,元数据保存两份 Standby在NN或JT宕机时启用 将来的工作 开发一种新型的调度器 调度效率低下导致集群利用率不足 基于红黑树的调度器 NameNode HA Namenode 内存瓶颈 Heap Size 40G,CMS gc之后 23G 分布式NameNode, Dynamic Partition Tree Hadoop 升级 OSD及CRUSH算法 Hive使用 2009年3月调研,4月投入生产 CLI与Thrift Server并用 Web/SSH 界面 模板化 预加载 86个统一发布UDF Lineage Analysis 极限存储 增量存储表 按数据的生命周期分目录 实践经验 数据倾斜 内存优化 I/O优化 Multi-Insert 数据压缩 淘宝对Hive的贡献与改造 UDFs 建立/删除临时函数 多线程 Thrift server GBK支持 完全JDBC Multi Distinct Aggregation支持 认证与权限 bug fix 将来的工作 Hive IDE Multi Distinct Aggregation优化 Multi Group By优化 极限存储的索引与文件 表统计信息的支持 采用TFile做列存储尝试 分布式数据仓库构思 Hadoop 集群 JobTracker TaskTracker Postgres 实例 MapTask ReduceTask TaskTracker Postgres 实例 MapTask ReduceTask TaskTracker Postgres 实例 MapTask ReduceTask 提交MapReduce作业 Anthill 服务器 元数据库 分析器 优化器 规划器 执行器 Anthill客户端 网络 链接 淘宝数据魔方 淘宝数据平台团队博客 / 个人 /minzhou * *fil
您可能关注的文档
- 文化论争与学人评价_五四新文化运动若干论争的再认识.pdf
- 文秋芳二语习得跟踪研究的三个基本问题分类设计与可比性.pdf
- 断专家系统以压铸机为例.pdf
- 新产品策划书多功能组合台灯.doc
- 新人教版七年级下册数学第5章相交线与平行线单元检测题.doc
- 新创企业风险投资最优契约模型设计2012c0102h.pdf
- 新华期货研发中心金属事业部—沪锌套利跟踪分析0323.pdf
- 新华期货研发中心金属事业部—沪锌套利跟踪分析0325.pdf
- 新型烧鸡加工技术陈传福.pdf
- 新型矩阵式MMC拓扑结构及控制算法研究.pdf
- 5.3.1函数的单调性(教学课件)--高中数学人教A版(2019)选择性必修第二册.pptx
- 部编版道德与法治2024三年级上册 《科技提升国力》PPT课件.pptx
- 2.7.2 抛物线的几何性质(教学课件)-高中数学人教B版(2019)选择性必修第一册.pptx
- 人教部编统编版小学六年级上册道德与法治9 知法守法 依法维权(第一课时)课件.pptx
- 三年级上册品德道德与法治《学习伴我成长》.pptx
- 部编版小学道德与法治六年级上册6 人大代表为人民 课件.pptx
- 部编版小学道德与法治六年级上册1感受生活中的法律第一课时课件.pptx
- 2.5.2圆与圆的位置关系(教学课件)-高中数学人教A版(2019)选择性必修第一册.pptx
- 2.5.1直线与圆的位置关系-(教学课件)--高中数学人教A版(2019)选择性必修第一册.pptx
- 14.1.1 同底数幂的乘法(教学课件)-初中数学人教版八年级上册.pptx
文档评论(0)