Hadoop实用指南.pptx

下载文档 降价啦

4
0
约5.35千字
约 26页
2017-07-03 发布于湖北
举报
版权申诉
保障服务

Hadoop实用指南.pptx

1、本文档共26页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop实用指南概要1

Hadoop实用指南;Sogou的Hadoop生态系统 Hadoop Quick Start 深入MapReduce 了解MapReduce运行机制如何调试MapReduce MultiInput MultiOutput 数据Join操作关于UigsTools MapReduce进阶开发模式各类资源列表;数据服务 Uigs/SogouRank公共数据由系统管理员管理各个用户自行管理/user/username目录下的数据 Hadoop任务管理系统替代crontab 方便管理大量任务支持任务依赖关系、监控报警 Hadoop/Hbase工具类库 MapReduce InputFormat： Spider Pages/HBase数据/ComposeInputFormat Hdfs rsync/find工具、各种Hbase工具、QDB接口的HBaseDaemon 面向Pig语言的通用库：uigs日志解析器、MR结果入mysql库 Scribe 平台bug-fix、新功能支持、技术支持平台组：cloud_dev@;日常开发：晨曦集群 LA-test 定时执行的关键业务： Zeus集群 LA集群各业务专用集群 urllib/meepo/alex/zion;搭建Hadoop client环境运行一键安装脚本(Linux Shell)（下载链接）配置用户名密码详见此处搭建个人开发环境安装JVM和eclipse(subclipse插件) 搜狗内部下载链接安装eclipse插件：Help-Install new soft-add-archive 将Hadoop/Hbase的jar包拷贝到本地备用 /usr/lib/hadoop/lib/*.jar /usr/lib/hbase/*.jar /usr/lib/hbase/lib/*.jar 建议将这些jar包设置为Eclipse的公共Library: Window-Preferences-Java-Build Path-User Libraries-New… （可选）在Linux虚机上安装远程桌面 # yum groupinstall -y “GNOME Software Development” # yum install -y “xrdp” # service xrdp start 用windows上的远程桌面连接;第一个MapReduce程序如何下手 MapReduce示例工程 /svn/websearch4/data_platform/samples/mapreduce/ 说明：最简单的WordCount写法 UigsTools示例工程 /svn/websearch4/data_platform/samples/uigs-java/ UigsWordCount演示如何在用uigsTools时解析通用参数 WordCount演示ToolRunner同uigsTools的配合方式;步骤将Hadoop的jar包添加到工程的Build Path中 Project上右键-Build Path-Add Libraries-User Libraries 开发Mapper/Reducer/主程序(main class)的代码将代码打成jar包从Eclipse export出jar包或采用fatjar插件生成jar包或采用ant/javac等命令行工具生成jar包执行程序 # hadoop jar jar file main class [other param] 查看执行状态命令行：# hadoop job –list Web UI;Client/JobTracker/TaskTracker InputFormat getSplits() / getRecordReader() OutputFormat Mapper/Reducer/Combiner Partitioner 分环策略;推荐开发步骤单元测试 MRUnit/JUnit 本地模式调试 Eclipse 分布式模式调试 Counter 打日志，并通过Web UI查看;MapReduce本地模式启用方法将mapred.job.tracker设置为local conf.set(“mapred.job.tracker”, “local”); 修改mapred-site.xml中的参数值 HDFS本地模式启用方法将设置为file:/// conf.set(“”, “file:///”) 修改core-site.xml中的参数值本地模式要点 MapReduce和HDFS可以分别进行本地化可以本地MapReduce处理分布式HDFS上的文件可以本地MapReuce处理本地HDFS上的文件不能用分布式