- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop在百度
HadoopHadoop在百度在百度
wangshouyan@
系统部系统部
2008.11
主要内容主要内容
• 百度在hadoop上的应用
• 对对hadoophadoop进行的改进和调整进行的改进和调整
• 目前面临的问题及未来的改进计划
• hypertable相关研究和应用
百度在百度在hadoophadoop上的应用上的应用
• 互联网领域的平台需求
• 应用范畴应用范畴
• 应用方法
互联网领域的平台需求互联网领域的平台需求
应用范畴应用范畴
1 日志存储和统计
22 网页数据分析和挖掘网页数据分析和挖掘
3 商业分析
4 在线数据分析反馈
5 用户户和网页聚类类
应用方法应用方法
对对hadoophadoop进行的改进和调整进行的改进和调整
• Mapp-reduce策略调整
• HDFS效率和功能改进
•• 资源使用控制资源使用控制
mapmap-reducereduce策略调整策略调整
1 限制某某作业处于运行状态的任务务数
22 调整预测执行策略调整预测执行策略,,控制预测执行量控制预测执行量。。
3 根据节点内存状况调度
4 平衡中间结果输出
HDFSHDFS效率和功能改进效率和功能改进
11 权限控制权限控制
22 分区与节点的独立性分区与节点的独立性
3 VFS的posix兼容性
资源使用控制资源使用控制
1 应用物理内存控制-修改linux内核,对进程独立限制
22 对计算资源分组调度对计算资源分组调度,实现存储共享实现存储共享,计算不相干计算不相干
扰。
3 大块文件系统大块文件系统
目前面临的问题及未来的改进计划目前面临的问题及未来的改进计划
Map-reduce效率问效率问题
HDFS效率和可靠性问题
资源利用效率问题
MapMap-reducereduce效率问题效率问题
1 shuffle效率效率问题:减少IO次数,过程并行
22 sortsort的效率和可配置性的效率和可配置性
3 streaming利用管道传输的效率问题
HDFSHDFS效率和可靠性问题效率和可靠性问题
1 随机访问效率
22 数据写入的实时性数据写入的实时性
资源利用效率问题资源利用效率问题
hypertablehypertable相关相关
• 应用方法
• 完善和改进完善和改进
• 与open source合作
应用方法应用方法
完善和改进完善和改进
1 recovery
2 资源使用情况
3 监控
与与openopen sourcesource合作合作
1 bug
22 patchpatch
3 contribute
QAQA
您可能关注的文档
- fedora 服务器配置指南.pdf
- fmt150光养生物反应器文献—2010 experimental validation of a nonequilibrium model of co 2 fluxes between gas(if1.8).pdf
- g is for google by larry page关于谷歌公司重组的信.pdf
- gabe幼儿园教具.pdf
- gb 18596-2001 畜禽养殖业污染物排放标准.pdf
- gb 19431-2004 味精工业污染物排放标准.pdf
- gc锅炉泵简介型号参数及价格.pdf
- gc系列多级锅炉泵简介型号参数及价格.pdf
- gc系列锅炉给水泵简介型号参数及价格.pdf
- gc型多级锅炉给水泵简介型号参数及价格.pdf
文档评论(0)