网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据存储和计算资源管理单超范例.pptx

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
唯品会大数据平台 大数据存储和计算资源管理 邮箱: eric.shan@ 微信: shanchaoeric 唯品会大数据平台规划 离线计算A台 流B计算A台 VDProcess 实时计算 VDBank 实时接入 VDEngine 分布式存 (RE(实时推荐A台 ? ABT(分流与实 S)oring(初 选 ? Sorting(精E ? Filtering(过S ? 个性化推荐 广告联盟 精准营销 CRM Mixer(接入分发 ? DMP 统一 T户 数D 货品 画像 验 ? P型训练A台 Spark DNN 算法 库 数D分M 数D服务 数DF索 数D管控 标准化 元数D eiV控 校准 g V R 维 控 c 唯品会大数据平台现状 大数据管理工作范畴 ? 业务系统 ? 调度系统 ETL ? 数据模型 ? 元数据/主数据管 理 ? 数据质量 ? 开发流程 ? 运维流程 ? 数据审计和安全 ?资源管理 “数据平台使用申请” ? 用户提交: ? 资源类型 ? hdfs存储/hive数据库/hive计算资源/mr计算资 源... ? 资源数目 ? 100T存储/1T内存/1000颗CPU... ? 访问方式 hive/presto/spark/webhdfs… ? 管理员处理: hdfs分配: path/name quota/space quota ? hive分配: 数据库/授权 yarn分配: ? 队列最小资源/最大资源/weight 理想很丰满,现实很骨感 ? 系统强大 ? 数据规范 ? 流程规范 ? 技术成熟 ? 业务成熟 ? 模型变更迅速,开发周期短 ? 用户能力参差不齐 ? 大量的历史包袱 ? 大量的技术包袱 ? 平台不稳定,掌控力差 ? 分层不明确 理想 现实 各种问题 ? 这个任务昨天还好好的,为什么今天跑不出来了? ? 2-10倍的数据量,能撑得住吗? ? 怎么几千个任务都慢了? ? 最近磁盘使用急剧增加,谁在用? ? 这个表好像不用了,我能删除掉吗? ? 集群要扩容吗?扩多少? 核心 资源管控 ? 分田到户 ? 目的: ? 从乱序到有序 ? 申请和分配有据可查 ? 规则公开透明 ? 数据公开透明 ? 有多少资源,干多少事 ? 合理的KPI和惩罚机制 ? ROI,资源倾斜给回报率高的项目 资源有什么? 为什么存储和计算需要关注? Scale Up Scale Out Namenode - 存储(2亿blocks/2亿files) standby namenode updateCountForQuota缓慢影响主从一致性,进而影响切换(HDFS-6763) standby checkpoint缓慢导致增量blockreport汇报被skip, 影响主从一致性,进而影响切换(HDFS-7097) standby checkpoint GC导致transfer Fsimage超时失败 ? 集群启动期间, blockreport需要错开,导致启动缓慢,namenode压力增加 ResourceManager - 计算(1k+并行job/40w+ job每天) 大量任务运行期间,resource manager分配能力不足 /jira/browse/YARN-3547 部分解决问题 /jira/browse/YARN-5188 our patch for fairscheduler ? 队列分配过粗,互相影响严重 开源节流 Federation 存储优化管理 计算优化管理 提升namenode rpc性能 提升yarn的containaer assign性能 增加机器 存储资源管理 存储资源管理 - hdfs存储资源 存储资源管理 - 如何获取存储数据 hdfs -lsR [slow but easy] load 【均为hive table】 文件元数据信息 hive表元数据信息 调度任务元数据信息 路径访问信息 calc 1. 维度 分区/表/数据库/任务/业务/人/目录层级 /时间 2. 指标 全量/增量/趋势/平均文件大小/最大文件 大小/最小文件大小/文件数目/占比 3. 热度 哪些表被频繁访问? 哪些表3个月都没人访问了? 4. 安全 有没有敏感信息被非法访问 fsimage parser [fast but need dev] hive metastore ETL metadata hdfs audit log 资源管控系统-demo 资源管控系统-demo 存储资源管理 - 如何使用存储数据 ? 容量计费 ? 通过计费来控制资源 ? 存储数据完整透明 ? 消费预警,提前知会用户 ? 空间管理 ? 自动配置生命周期管理规则 ? 存储格式,压缩格式选择(orc+gzip) ? 文件管理 ? 自动

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档