- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop实用指南概要1
Hadoop实用指南;Sogou的Hadoop生态系统
Hadoop Quick Start
深入MapReduce
了解MapReduce运行机制
如何调试MapReduce
MultiInput MultiOutput
数据Join操作
关于UigsTools
MapReduce进阶开发模式
各类资源列表;数据服务
Uigs/SogouRank公共数据由系统管理员管理
各个用户自行管理/user/username目录下的数据
Hadoop任务管理系统
替代crontab
方便管理大量任务
支持任务依赖关系、监控报警
Hadoop/Hbase工具类库
MapReduce InputFormat:
Spider Pages/HBase数据/ComposeInputFormat
Hdfs rsync/find工具、各种Hbase工具、QDB接口的HBaseDaemon
面向Pig语言的通用库:uigs日志解析器、MR结果入mysql库
Scribe
平台bug-fix、新功能支持、技术支持
平台组:cloud_dev@;日常开发:
晨曦集群
LA-test
定时执行的关键业务:
Zeus集群
LA集群
各业务专用集群
urllib/meepo/alex/zion;搭建Hadoop client环境
运行一键安装脚本(Linux Shell)(下载链接)
配置用户名密码
详见此处
搭建个人开发环境
安装JVM和eclipse(subclipse插件)
搜狗内部下载链接
安装eclipse插件:Help-Install new soft-add-archive
将Hadoop/Hbase的jar包拷贝到本地备用
/usr/lib/hadoop/lib/*.jar
/usr/lib/hbase/*.jar
/usr/lib/hbase/lib/*.jar
建议将这些jar包设置为Eclipse的公共Library:
Window-Preferences-Java-Build Path-User Libraries-New…
(可选)在Linux虚机上安装远程桌面
# yum groupinstall -y “GNOME Software Development”
# yum install -y “xrdp”
# service xrdp start
用windows上的远程桌面连接;第一个MapReduce程序如何下手
MapReduce示例工程
/svn/websearch4/data_platform/samples/mapreduce/
说明:最简单的WordCount写法
UigsTools示例工程
/svn/websearch4/data_platform/samples/uigs-java/
UigsWordCount演示如何在用uigsTools时解析通用参数
WordCount演示ToolRunner同uigsTools的配合方式;步骤
将Hadoop的jar包添加到工程的Build Path中
Project上右键-Build Path-Add Libraries-User Libraries
开发Mapper/Reducer/主程序(main class)的代码
将代码打成jar包
从Eclipse export出jar包
或 采用fatjar插件生成jar包
或 采用ant/javac等命令行工具生成jar包
执行程序
# hadoop jar jar file main class [other param]
查看执行状态
命令行:# hadoop job –list
Web UI;Client/JobTracker/TaskTracker
InputFormat
getSplits() / getRecordReader()
OutputFormat
Mapper/Reducer/Combiner
Partitioner
分环策略;推荐开发步骤
单元测试
MRUnit/JUnit
本地模式调试
Eclipse
分布式模式调试
Counter
打日志,并通过Web UI查看;MapReduce本地模式启用方法
将mapred.job.tracker设置为local
conf.set(“mapred.job.tracker”, “local”);
修改mapred-site.xml中的参数值
HDFS本地模式启用方法
将设置为file:///
conf.set(“”, “file:///”)
修改core-site.xml中的参数值
本地模式要点
MapReduce和HDFS可以分别进行本地化
可以本地MapReduce处理分布式HDFS上的文件
可以本地MapReuce处理本地HDFS上的文件
不能用分布式
您可能关注的文档
- 机械能守恒定律练习题.doc
- 机械装配之机械简介一.pptx
- 机械设备档案管理表格.doc
- 机械类专业《机械制图》课程会考练习题(一).doc
- 机械能和内能的转化主要.ppt
- H3细胞无创焕颜仪使用说明.ppt
- G孤立性肺结节的诊断现状.ppt
- 机械设备系统功能改造说明(V01.00.0002.00版).docx
- HACCP 在红枣酸奶中的应用.docx
- 机械设备投标标书范本.doc
- 第12课 大一统王朝的巩固 课件(20张ppt).pptx
- 第17课 君主立宪制的英国 课件.pptx
- 第6课 戊戌变法 课件(22张ppt).pptx
- 第三章 物态变化 第2节_熔化和凝固_课件 (共46张ppt) 人教版(2024) 八年级上册.pptx
- 第三章 物态变化 第5节_跨学科实践:探索厨房中的物态变化问题_课件 (共28张ppt) 人教版(2024) 八年级上册.pptx
- 2025年山东省中考英语一轮复习外研版九年级上册.教材核心考点精讲精练(61页,含答案).docx
- 2025年山东省中考英语一轮复习(鲁教版)教材核心讲练六年级上册(24页,含答案).docx
- 第12课近代战争与西方文化的扩张 课件(共48张ppt)1.pptx
- 第11课 西汉建立和“文景之治” 课件(共17张ppt)1.pptx
- 唱歌 跳绳课件(共15张ppt内嵌音频)人音版(简谱)(2024)音乐一年级上册第三单元 快乐的一天1.pptx
文档评论(0)