简介Hadoop集群技术在优酷土豆的应用.pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
这篇文章主要介绍了 Hadoop 集群技术在优酷土豆的应用 ,包括其在大数据和推荐系统 中为优酷所起到的关键作用的介绍 ,需要的朋友可以参考下 为了更好的实现个性化视频推荐, 2009 年,优酷土豆开始使用 Hadoop 大数据平台来进 行数据的分析及挖掘。起初整个平台平台只有十多个节点,而到 2012 年集群节点已经达到 150 个,2013 年更是达到了 300 个。但是随着数据量的急剧增加以及业务的迅猛发展, 每天 优酷处理的数据量已突破 200TB ,优酷土豆的技术人员发现一些场景并不适合利用 MapReduce 进行处理。 优酷土豆的大数据平台已使用多年, 核心业务数据量的增长与数据处理速度的失衡成为 优酷土豆 Hadoop 大数据平台的一大瓶颈。这个问题主要表现在三个方面:首先,在 BI 方 面,分析师提交任务后需要等待很久才得到结果。 其次, 在进行一些模拟广告投放之时,在 调优、筛选方面的计算量十分大,对计算效率的要求也较高,用 Hadoop 消耗资源过大而且 响应较慢。同时, MapReduce 在机器学习和图计算的迭代运算方面不仅需要耗费大量资源, 处理速度也不尽人意。 优酷土豆集团大数据团队大数据平台架构师傅杰介绍道: “虽然很多互联网企业都在用 MapReduce 来处理自己的业务,但是由于优酷的视频量大概在 2 亿的级别,视频的关系量 目前在 10 亿的级别,这个级别的数据量利用 MapReduce 来计算 CPU 资源消耗比较高,而 计算效率比较低,单纯依靠 MapReduce 框架已经无法满足视频推荐、广告投放效果预估等 情景对实时性和准确性的要求。 ” 优酷土豆如何打造 Hadoop 平台 目前傅杰老师主要负责优酷土豆集团大数据基础平台建设, 以支撑集团其他业务团队的 存储与计算需求,包含 Hadoop 平台、日志采集系统、实时计算系统、消息系统以及天机镜 系统等。据了解, Hadoop 平台在优酷的发展,主要有以下几个阶段: 平台搭建期:这个阶段主要解决一些技术问题,比如安全问题、整体规划,以及制定相 关流程; 平台发展期: 这个阶段主要是在集团内部进行推广, 伴随着会遇到各种各样的需求, 以 及解决各种各样的问题,修正相关流程,使平台进入一个稳定、高可用的水平; 平台稳定期: 这个阶段主要是从优化资源入手, 内部培训调优作业, 统计资源消耗合理 性,构建自动化优化流程。 “现阶段我们主要在调研 Hadoop1.X 到 Hadoop2.0 的升级方案,预计明年初对 Hadoop 进行升级。今年我们也搭建了基于 Storm 的实时计算平台、 kafka 消息系统,推广到集团的 线上业务中,也逐步流程化的运营起来了。 ”傅杰老师介绍说。 新手如何入门 Hadoop? 据傅杰老师介绍,目前 Hadoop 在国内有很好的发展态势,各大企业对 Hadoop 的需求 也比较旺盛,同时,应用 Hadoop 的行业也越来越多。但目前存在的问题是, Hadoop 的优 秀技术人才比较短缺。那么对于想踏入 Hadoop 领域的新手来说,应如何入门呢 ? 傅杰老师给出的建议是: 1.经常关注 Hadoop 官方网站 ;

文档评论(0)

jjwhy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档