hadoop常用算法例子.docx

下载文档 降价啦

6
0
约1.22万字
约 16页
2017-11-21 发布于福建
举报
版权申诉
保障服务

hadoop常用算法例子.docx

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

hadoop常用算法例子

基本MapReduce模式计数与求和基本MapReduce模式计数与求和问题陈述:有许多文档，每个文档都有一些字段组成。需要计算出每个字段在所有文档中的出现次数或者这些字段的其他什么统计值。例如，给定一个log文件，其中的每条记录都包含一个响应时间，需要计算出平均响应时间。解决方案:让我们先从简单的例子入手。在下面的代码片段里，Mapper每遇到指定词就把频次记1，Reducer一个个遍历这些词的集合然后把他们的频次加和。class Mapper method Map(docid id, doc d)?for all term t in doc d do Emit(term t, count 1)class Reducer method Reduce(term t, counts [c1, c2,...])?sum = 0?for all count c in [c1, c2,...] do?sum = sum + c?Emit(term t, count sum)复制代码这种方法的缺点显而易见，Mapper提交了太多无意义的计数。它完全可以通过先对每个文档中的词进行计数从而减少传递给Reducer的数据量:[size=14.166666030883789px]1 class Mapper2? ?method Map(docid id, doc d)3? ???H = new AssociativeArray4? ???for all term t in doc d do5? ?? ? H{t} = H{t} + 16? ?? ? for all term t in H do7? ?? ?? ?Emit(term t, count H{t})复制代码如果要累计计数的的不只是单个文档中的内容，还包括了一个Mapper节点处理的所有文档，那就要用到Combiner了:[size=14.166666030883789px]1? ?class Mapper2? ?? ?method Map(docid id, doc d)3? ?? ?? ?for all term t in doc d do4? ?? ?? ?? ?Emit(term t, count 1)5?6? ?class Combiner7? ?? ?method Combine(term t, [c1, c2,...])8? ?? ?? ?sum = 09? ?? ?? ?for all count c in [c1, c2,...] do10? ?? ?? ?? ? sum = sum + c11? ?? ?? ?Emit(term t, count sum)12?13? ?class Reducer14? ?? ?method Reduce(term t, counts [c1, c2,...])15? ?? ?? ?sum = 016? ?? ?? ?for all count c in [c1, c2,...] do17? ?? ?? ?? ? sum = sum + c18? ?? ?? ?Emit(term t, count sum)复制代码应用：Log 分析, 数据查询整理归类问题陈述:有一系列条目，每个条目都有几个属性，要把具有同一属性值的条目都保存在一个文件里，或者把条目按照属性值分组。最典型的应用是倒排索引。解决方案：解决方案很简单。在 Mapper 中以每个条目的所需属性值作为 key，其本身作为值传递给 Reducer。 Reducer 取得按照属性值分组的条目，然后可以处理或者保存。如果是在构建倒排索引，那么每个条目相当于一个词而属性值就是词所在的文档ID。应用：倒排索引， ETL过滤 (文本查找)，解析和校验问题陈述:假设有很多条记录，需要从其中找出满足某个条件的所有记录，或者将每条记录传换成另外一种形式（转换操作相对于各条记录独立，即对一条记录的操作与其他记录无关）。像文本解析、特定值抽取、格式转换等都属于后一种用例。解决方案:非常简单，在Mapper 里逐条进行操作，输出需要的值或转换后的形式。应用：日志分析，数据查询，ETL，数据校验分布式任务执行问题陈述:大型计算可以分解为多个部分分别进行然后合并各个计算的结果以获得最终结果。解决方案:?将数据切分成多份作为每个 Mapper 的输入，每个Mapper处理一份数据，执行同样的运算，产生结果，Reducer把多个Mapper的结果组合成一个。案例研究：数字通信系统模拟像 WiMAX 这样的数字通信模拟软件通过系统模型来传输大量的随机数据，然后计算传输中的错误几率。每个 Mapper 处理样本 1/N??的数据，计算出这部分数据的错误率，然后在 Reducer 里计算平均错误率。应