mapreduce计算入门案例.pdf

下载文档

0
0
约2.29千字
约 4页
2024-10-14 发布于中国
举报
版权申诉
保障服务

mapreduce计算入门案例.pdf

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

mapreduce计算入门案例--第1页

mapreduce计算入门案例

MapReduce计算入门案例

MapReduce是一种用于大规模数据处理的编程模型和软件框架，由

Google公司于2004年提出并应用到其有哪些信誉好的足球投注网站引擎中。现在已经成为了最

流行和擅长分布式处理大规模数据集的计算模型之一。本文章将介绍

一个简单的MapReduce计算入门案例。

#案例描述

假设现在我们有一个包含大量email的数据集，我们需要在这些email

中找出出现次数最多的单词。

#数据准备

首先，我们需要获得一份email的数据集。这里我们用一个包含5000

封email的数据集作为示例，并且不分大小写和标点符号。

#MapReduce实现

接下来，我们将介绍如何使用MapReduce计算模型来确定数据中最常

出现的单词。MapReduce模型分为两个步骤：Map和Reduce。

##Map

mapreduce计算入门案例--第1页

mapreduce计算入门案例--第2页

首先，我们需要通过Map阶段将email数据转化为(key,value)的键值对。

具体来说，我们需要使用以下步骤：

1.将每个email拆分成单独的单词，同时去掉标点符号和大小写；

2.对所有单词进行编号；

3.输出每个单词及其对应的编号作为(key,value)的键值对。

下面是Map阶段具体实现示例：

```

functionmap(key,value):

forwordinsplit(value):

output(word,1)

```

在这个示例中，我们使用split函数将value（email消息内容）分割成

单个单词，并对每个单词输出键值对(key,1)。

##Reduce

完成Map阶段后，我们需要进行Reduce阶段来计算每个单词在数据集

中的出现次数。这里我们需要使用以下步骤：

1.将Map阶段输出的键值对按照键进行分组；

mapreduce计算入门案例--第2页

mapreduce计算入门案例--第3页

2.对于每个唯一的键，计算对应的值的总和；

3.输出每个唯一的键及其对应的值作为(key,value)的键值对。

下面是Reduce阶段具体实现示例：

```

functionreduce(key,values):

output(key,sum(values))

```

在这个示例中，我们使用sum函数计算出现次数总和，并将结果作为

键值对(key,count)输出。

#运行示例

完成MapReduce实现后，我们就可以使用Hadoop集群来运行示例。

具体来说，我们需要按照以下步骤来进行：

1.安装Hadoop集群；

2.将email数据集存储到Hadoop分布式文件系统中；

3.编写MapReduce任务代码；

4.在集群上运行MapReduce任务，输出结果。

在本示例中，我们可以使用以下命令来运行MapReduce任务：

mapreduce计算入门案例--第3页

mapreduce计算入门案例--第4页

```

hadoopjarwordcount.jarWordCount/path/to/emails/path/to/output

```

其中，wordcount.jar是我们编写的MapReduce任务代码打包后的JAR

您可能关注的文档

文档评论（0）

183****8206 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

mapreduce计算入门案例.pdf