Hadoop实用指南.pptx

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop实用指南概要1

Hadoop实用指南;Sogou的Hadoop生态系统 Hadoop Quick Start 深入MapReduce 了解MapReduce运行机制 如何调试MapReduce MultiInput MultiOutput 数据Join操作 关于UigsTools MapReduce进阶开发模式 各类资源列表;数据服务 Uigs/SogouRank公共数据由系统管理员管理 各个用户自行管理/user/username目录下的数据 Hadoop任务管理系统 替代crontab 方便管理大量任务 支持任务依赖关系、监控报警 Hadoop/Hbase工具类库 MapReduce InputFormat: Spider Pages/HBase数据/ComposeInputFormat Hdfs rsync/find工具、各种Hbase工具、QDB接口的HBaseDaemon 面向Pig语言的通用库:uigs日志解析器、MR结果入mysql库 Scribe 平台bug-fix、新功能支持、技术支持 平台组:cloud_dev@;日常开发: 晨曦集群 LA-test 定时执行的关键业务: Zeus集群 LA集群 各业务专用集群 urllib/meepo/alex/zion;搭建Hadoop client环境 运行一键安装脚本(Linux Shell)(下载链接) 配置用户名密码 详见此处 搭建个人开发环境 安装JVM和eclipse(subclipse插件) 搜狗内部下载链接 安装eclipse插件:Help-Install new soft-add-archive 将Hadoop/Hbase的jar包拷贝到本地备用 /usr/lib/hadoop/lib/*.jar /usr/lib/hbase/*.jar /usr/lib/hbase/lib/*.jar 建议将这些jar包设置为Eclipse的公共Library: Window-Preferences-Java-Build Path-User Libraries-New… (可选)在Linux虚机上安装远程桌面 # yum groupinstall -y “GNOME Software Development” # yum install -y “xrdp” # service xrdp start 用windows上的远程桌面连接;第一个MapReduce程序如何下手 MapReduce示例工程 /svn/websearch4/data_platform/samples/mapreduce/ 说明:最简单的WordCount写法 UigsTools示例工程 /svn/websearch4/data_platform/samples/uigs-java/ UigsWordCount演示如何在用uigsTools时解析通用参数 WordCount演示ToolRunner同uigsTools的配合方式;步骤 将Hadoop的jar包添加到工程的Build Path中 Project上右键-Build Path-Add Libraries-User Libraries 开发Mapper/Reducer/主程序(main class)的代码 将代码打成jar包 从Eclipse export出jar包 或 采用fatjar插件生成jar包 或 采用ant/javac等命令行工具生成jar包 执行程序 # hadoop jar jar file main class [other param] 查看执行状态 命令行:# hadoop job –list Web UI;Client/JobTracker/TaskTracker InputFormat getSplits() / getRecordReader() OutputFormat Mapper/Reducer/Combiner Partitioner 分环策略;推荐开发步骤 单元测试 MRUnit/JUnit 本地模式调试 Eclipse 分布式模式调试 Counter 打日志,并通过Web UI查看;MapReduce本地模式启用方法 将mapred.job.tracker设置为local conf.set(“mapred.job.tracker”, “local”); 修改mapred-site.xml中的参数值 HDFS本地模式启用方法 将设置为file:/// conf.set(“”, “file:///”) 修改core-site.xml中的参数值 本地模式要点 MapReduce和HDFS可以分别进行本地化 可以本地MapReduce处理分布式HDFS上的文件 可以本地MapReuce处理本地HDFS上的文件 不能用分布式

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档