- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Graphlab并行集群安装教程
Graphlab并行集群安装教程 GraphLab是CMU(卡耐基梅隆大学)开发的一个以vertex为计算单元的大规模图处理系统,是继google的Pregel之后的第一个开源的大规模图处理系统,它解决了传统mapreduce框架对于机器学习应用的处理中最突出的两个问题(频繁迭代计算和大量节点通信)引起的计算效率的问题,与Haloop,Twister等基于mapreduce批量处理不同的是,它采用Pregel的以vertex为计算单元,并将机器学习抽象成GAS(gather,apply,scatter)三个步骤,然后按该抽象模型设计实现算法,事实已经证明该框架对于机器学习这一类跟图处理关系紧密的应用有很好的效果。最近这几天在实验室集群上搭建了GraphLab分布式计算环境。这篇文章主要总结一下搭建过程和碰到的问题。1)介绍一下实验室集群的环境。集群中总共有9台机器,每台机器有CPU核4个,内存8G。每台机器上都安装了64位Ubuntu 12.04 Desktop版操作系统。注意,根据GraphLab官方安装指南(We?require?a 64-bit operating system.),要安装GraphLab,操作系统必须是64位的。2)为每台机器安装GraphLab的依赖库。在每台机器上运行如下的命令:sudo apt-get installgcc g++ build-essential libopenmpi-dev openmpi-bin default-jdkcmake zlib1g-dev git3)从GitHub上下载GraphLab。选取集群中的一台机器,进入要安装GraphLab的目录,使用如下的git命令下载GraphLab。cd ~ # 我将GraphLab安装在了主目录下git clone /graphlab-code/graphlab.git由于GraphLab项目比较大,下载需要花费一定的时间。下载完成之后,会在当前目录下看到一个名为graphlab的文件夹。4)编译GraphLab。? ?进入graphlab文件夹,使用graphlab自带的configure脚本配置编译环境:cdgraphlab./configure?配置成功后会在graphlab文件夹内生成release和debug两个新的目录。这两个目录分别对应不同项目的发行版和测试版,在这两个目录中都可以编译GraphLab的所有Toolkit,分别对应发行版和测试版。编译后发行版与测试版的不同是,发行版在编译过程中程序都做了优化,运行速度更快。因此,我的编译选择在release目录中进行。还有一点需要特别指出,GraphLab不仅提供了分布式大规模图计算模型,而且基于该模型实现了很多实用的工具集,这些工具集可以分成六类:主题建模、图分析、聚类、协同过滤、图模型和计算机视觉。可以根据自己的需要只编译其中的某一类或几类。如果全部编译,第一次编译时会下载很多的库文件,耗费很长时间。我只对其中的图分析工具集比较感兴趣,所以只编译了这一个。同时我也编译了apps目录中的相应样例代码。编译release目录下的apps子目录:cd release/appsmake -j 3?第二行中的参数-j 3是利用了make的并行编译特性,3指的是同时进行三个编译任务。该数字越大,并行性越高,编译速度越快,但是占用内存也越多。如果该数字过大,会因内存不够用而使编译过程卡住。编译release目录下的toolkits中的graph_analytics:cd release/toolkits/graph_analyticsmake -j 3?如果希望编译整个GraphLab,那么可以在release目录下运行如下命令:cd releasemake -j 3?5) 配置SSH。GraphLab要求集群中任意两台机器之间能够实现SSH无密码登录。首先要确保每台机器上都已经安装了openssh-server:sudo apt-get installopenssh-server?接着在每台机器上生成公钥和私钥对,一路回车即可:ssh-keygen -t rsa?最后是配置任意两台机器间的无密码ssh登录。比如A和B两台机器,若要在A上能够无密码ssh登录到B,可以在A上运行如下命令:ssh-copy-idhostname-of-B?其中hostname-of-B指的是B的主机名。如果集群中机器数量很多,任意两台机器都配置一遍显然太麻烦了。一种简单的策略是,先配置其中一台机器到集群中所有机器的(包括ssh到自己的),然后将该台机器中$HOME/.ssh/authorized_keys
您可能关注的文档
最近下载
- 人教版小学四年级数学下册全册教案(表格式).pdf VIP
- “告别”讨好型人格课件高中心理健康课程.pptx
- 上海市嘉定区第一中学2023-2024学年高二上学期期末考试数学试题.docx VIP
- 信息化施工组织设计方案.docx VIP
- 《学前教科研方法和研究性学习(第2版)》高职学前教育全套教学课件.pptx
- 三年级数学应用题300道.doc
- 三菱FR-A740变频器使用手册(应用篇)-说明书.pdf
- 春节后复产复工“六个一”安全工作台帐.docx
- 2024年巡察整改专题民主生活会个人发言材料范文.docx VIP
- Introduction to Linear Regression Analysis. 5th Edition ...推荐.pdf
文档评论(0)