- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop学习总结之三:Map-Reduce入门.doc
1、Map-Reduce的逻辑过程
假设我们需要处理一批有关天气的数据,其格式如下:
按照ASCII码存储,每行一条记录
每一行字符从0开始计数,第15个到第18个字符为年
第25个到第29个字符为温度,其中第25位是符号+/-
0067011990999991950051507+0000+
0043011990999991950051512+0022+
0043011990999991950051518-0011+
0043012650999991949032412+0111+
0043012650999991949032418+0078+
0067011990999991937051507+0001+
0043011990999991937051512-0002+
0043011990999991945051518+0001+
0043012650999991945032412+0002+
0043012650999991945032418+0078+ 现在需要统计出每年的最高温度。
Map-Reduce主要包括两个步骤:Map和Reduce
每一步都有key-value对作为输入和输出:
map阶段的key-value对的格式是由输入的格式所决定的,如果是默认的TextInputFormat,则每行作为一个记录进程处理,其中key为此行的开头相对于文件的起始位置,value就是此行的字符文本
map阶段的输出的key-value对的格式必须同reduce阶段的输入key-value对的格式相对应
对于上面的例子,在map过程,输入的key-value对如下:
(0, 0067011990999991950051507+0000+)
(33, 0043011990999991950051512+0022+)
(66, 0043011990999991950051518-0011+)
(99, 0043012650999991949032412+0111+)
(132, 0043012650999991949032418+0078+)
(165, 0067011990999991937051507+0001+)
(198, 0043011990999991937051512-0002+)
(231, 0043011990999991945051518+0001+)
(264, 0043012650999991945032412+0002+)
(297, 0043012650999991945032418+0078+) 在map过程中,通过对每一行字符串的解析,得到年-温度的key-value对作为输出:
(1950, 0)
(1950, 22)
(1950, -11)
(1949, 111)
(1949, 78)
(1937, 1)
(1937, -2)
(1945, 1)
(1945, 2)
(1945, 78) 在reduce过程,将map过程中的输出,按照相同的key将value放到同一个列表中作为reduce的输入
(1950, [0, 22, –11])
(1949, [111, 78])
(1937, [1, -2])
(1945, [1, 2, 78]) 在reduce过程中,在列表中选择出最大的温度,将年-最大温度的key-value作为输出:
(1950, 22)
(1949, 111)
(1937, 1)
(1945, 78) 其逻辑过程可用如下图表示:
2、编写Map-Reduce程序
编写Map-Reduce程序,一般需要实现两个函数:mapper中的map函数和reducer中的reduce函数。
一般遵循以下格式:
map: (K1, V1)? -? list(K2, V2)
public interface MapperK1, V1, K2, V2 extends JobConfigurable, Closeable {
? void map(K1 key, V1 value, OutputCollectorK2, V2 output, Reporter reporter)
? throws IOException;
} reduce: (K2, list(V))? -? list(K3, V3)?
public interface ReducerK2, V2, K3, V3 extends JobConfigurable, Closeable {
? void reduce(K2 key, IteratorV2 values,
????????????? OutputCollectorK3, V3 output, Reporter reporter)
??? throws
您可能关注的文档
- 人力资源管理师考试培训教程-第讲 第六章:劳动关系管理(六).doc
- 学科教学(语文)考研准备之鲁迅.doc
- 基于JEE Struts框架的课程设计实训项目——《BBS论坛系统》——针对项目中系统管理员信息的数据访问组件及单元测试(第部分).doc
- 制度建设:保障和促进社会公平正义的关键.doc
- 在公司质量、环境、职业健康安全管理体系文件发布会上的发言稿(新).doc
- 新版印花税申报表下载 新版印花税.doc
- 2016中国旅游网络关注度年度报告.doc
- 齐眉棍(Qimei gun).doc
- IBM分销渠道设计 字 投稿:孔孧孨.doc
- 2009最版新GHOST系统封装 全图 教程 工具 官方认证 500.doc
最近下载
- 1019《我的前半生》著作权的归属纠纷—法学1404班——文——02140452.ppt
- 工程伦理 课件全套 李正风 第1--9章 工程与伦理、 如何理解伦理--- 全球化视野下的工程伦理(414页).pptx
- 部编版小学语文六年级上册期中考试试题.doc
- 电动汽车电机驱动控制系统设计.docx VIP
- 汉英翻译(chapter four) 第四章 广告文本翻译.ppt
- j.中央空调运行巡检表.docx VIP
- 2023年成都市龙泉驿区工会系统人员招聘笔试试题及答案解析.docx VIP
- 2022一建公路练习题 桥梁部分.doc
- 牙齿大街的新鲜事.ppt VIP
- DLT741-2023年架空送电线路运行规程.docx
文档评论(0)