- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 17/ NUMPAGES 19
基于mapreduce的稀疏矩阵乘法算法
组长:吴建堃 组员:白野 朵宝宝
目录
一、课题研究目的
二、稀疏矩阵介绍
稀疏矩阵乘法介绍(三元组)……………………… 2
Mapreduce介绍 …………………………………4
实验环境配置 …………………………………7
创建代码(来自网络的代码) ………………………10
组员总结 ……………………………………………16
TOC \o 1-3 \h \z \u
一、课题研究目的。
矩阵乘法运算是一种基本运算。而扩大矩阵乘法的运算规模并降低其运算时间,将有利于满足机器学习算法处理大规模数据的要求。将MapReduce并行框架用于分块矩阵乘法,实现一种用于大规模矩阵乘法运算的方法。理论分析和实验结果表明该方法在处理大规模矩阵乘法上具有极大的潜能,并且随着计算节点的增加从而获得较好的加速比。
二、稀疏矩阵介绍。
人们无法给出稀疏矩阵的确切定义,一般都只是凭个人的直觉来理解这个概念,即矩阵中非零元素的个数远远小于矩阵元素的总数,并且非零元素没有分布规律。
对于那些零元素数目远远多于非零元素数目,并且非零元素的分布没有规律的矩阵称为稀疏矩阵
稀疏矩阵乘法介绍(三元组)
当矩阵M、N是稀疏矩阵时,我们可以采用三元组表的表示形式来实现矩阵的乘。
采用三元组表的方法来实现时,因为三元组只对矩阵的非零元素做存储所以可以采用固定三元组表a中的元素(i,k,Mik)(1≤i≤m1,1≤k≤n1),在三元组表b中找所有行号为k的的对应元素(k,j, Nkj)(1≤k≤m2,1≤j≤n2)进行相乘、 累加,从而得到Q[i][j],即以三元组表a中的元素为基准, 依次求出其与三元组表b的有效乘积。
算法中附设两个向量num[ ]、first[ ],其中num[row]表示三元组表b中第row行非零元素个数(1≤row≤m2), first[row]表示三元组表b中第row行第一个非零元素所在的位置。显然,first[row+1]-1指向三元组表b中第row行最后一个非零元素的位置。
first[1]=1;
first[row]=first[row-1]+num[row-1], 2≤row≤m2+1。
这里,first[m2+1]-1表示最后一行最后一个非零元素的存储位置。当三元组表a中第i行非零元素的列号等于三元组表b中非零元素的行号时,则元素相乘并将结果累加。
Mapreduce介绍
1、MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
2、特点:具有接口简单,健壮容错的特点。
3、关于map函数和reduce函数
MapReduce 的整体架构主要由map 和reduce 这两个函数组。其含义是:Map(映射)和Reduce(化简)。
图 SEQ 图 \* ARABIC 1 Mapreduce模式工作过程
用户输入一组键/值对,首先由map函数生成一批中间的键/值对,然后由reduce 函数将具有相同键的中间值合并,产生最后的结果。在这一过程中,由于MapReduce的数据本地化特性,计算都是在本地节点完成。用户在使MapReduce 开发时,只需要关注于应用本身,而不必关心底层的任务分发、并发控制、资源管理、容错等复杂细节。极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在HYPERLINK /view/991489.htm分布式系统上。因此,可以有效地将大规模矩阵乘法运算引入到MapReduce 并行框架中。
MapReduce 与传统并行编程模型的比较:
在传统并行编程过程中,程序员必须花大量的精力去处理进程间通信。WordCount被用来统计输入数据中各单词出现的次数。以WordCount 为例,MPI 的一种实现方式为:在各个MPI 进程完成各自的统计任务后,将结果汇总给某一个进程,然后由该进程进行最终统计。该实现方式很容易在完成最终统计任务的进程处形成通信瓶颈,而最终统计任务是以顺序方式完成,会导致统计效率低下。采用并行分类统计能提升效率,即收集各个进程获得的关于某个相同单词的局部统计信息,并将这些信息汇总给某个进程处进行分类统计。然而由于这种实现方式仅确定能产生某个单词统计信息的进程范
您可能关注的文档
最近下载
- 广西壮族自治区南宁市2023-2024学年八年级上学期期末地理试题(含答案).pdf VIP
- 13-1 2024级财税大数据应用专业人才培养方案.docx VIP
- 广西壮族自治区南宁市2023-2024学年八年级上学期期末地理试题.docx VIP
- 急性气管-支气管炎的临床护理.pptx
- 2024-2025学年北京朝阳区四年级(上)期末英语试卷(含答案).pdf
- 化学反应工程第6章 气-液反应及反应器.pptx
- 管理工程系-财税大数据应用专业人才培养方案.pdf VIP
- 新能源汽车技术(第二版)教学课件汇总全书电子教案(全).ppt
- [补车]囚于永夜by麦香鸡呢.doc
- 二年级下册数学期末复习八大专项练习.pdf
文档评论(0)