网站大量收购闲置独家精品文档,联系QQ:2885784924

使用R语言异构平台进行数据挖掘.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
使用R语言异构平台进行数据挖掘要点

使用R语言异构平台进行数据挖掘 摘要:数据产生和收集的指数级增长导致我们站在了数据分析和信息提取的新时代。基于通用处理器的常规系统不能够和大量计算需求的数据挖掘技术并驾齐驱。像GPU和FPGA的高性能协处理器有处理大量的计算工作负载的潜力。在本文中,我们提出了一个可扩展框架,旨在提供一个能够在异构平台上开发和使用高性能的数据挖掘应用平台。该框架采用了软件基础架构和高性能的内核库。此外,它包含了各种增加应用程序吞吐量的优化。该框架涵盖多种技术,包括R、GPU、多核心CPU、MPI和并行netCDF,利用它们的能力进行高性能计算。本文还介绍了来自多个应用程序提供显著的效能增益的交错GPU核心的概念。因此,相比喻其它可用的数据挖掘工具,我们的框架提供了一个易于使用的和可扩展的环境,无论是应用程序开发和执行。该框架是作为一个软件包,它可以很容易地集成在R编程环境上。 关键字——R;GPU;数据挖掘;MPI;K-Means;模糊K-Means;PCA;并行netCDF; 介绍 要在当今世界中取得成功,知识驱动决策是一个关键。工商企业,金融机构,政府部门,研究和发展组织收集大量的数据,以获得在各自的领域更深入的了解。社交网络如Facebook和微型博客网站Twitter上生成大量的能够提供当今社会必威体育精装版趋势的有用信息的数据。通过筛选这样大量收集的数据和发现未知的模式不是一个简单的任务,尤其是当数据的大小是艾字节和千兆兆字节的顺序排列。数据挖掘提出了自动分析技术池,可以发现隐藏的知识,并预测新的趋势和行为。 分析大量的数据需要计算资源。最近看许多像GPGPU、胞、多核、FPGA等,均设计了自己独特的优势的高性能架构的出现。同质范式计算的所有节点都具有相同的架构,正逐步转型为异构计算,每个任务被分配到最适合其属性的架构。由于数据挖掘内核的特征在密集计算,新一代架构可以显著提升其性能。此外,存储和检索大量数据增加了数据挖掘应用的复杂性。 探索隐藏的模式和趋势需要数据挖掘的收集技术。例如Clementine和magma包[18], [19], [20], [21],[22], [23]中R调用相应的C接口函数和所有的MPI调用的节点都在C级进行处理。其他的实施方式,称为R-级并行性(R-LP),其中,MPI通讯在R环境中是可见的,显示如图3中的实线箭头。在R节点调用C接口的内核和节点间的通信在R处理。请注意,在C内核是串口,而不是在C-LP MPI功能的内核。 实现是有有优点和缺点的。R-LP具有共享数据的节点之间的一个更高的开销,因为数据需要来对R的环境,然后传送到其他节点之前最后过滤下来到C的环境中,而不是C-LP,其中的数据可以被共享在相同的水平,即在整个C环境下,如图3所示。其次,它使用MPI的范式写好C的应用程序/内核可以没有或很少修改的直接连接到R环境。相反,R-LP需要应用使用R脚本编写。C-LP面临的局限性在于,它要求所有的开发须在RMPI包内,例如,所有的代码编译时需要RMPI代码。究其原因证明了一个事实,即对于整个系统MPI只要初始化一次,这使得包不可能在没有使用Rmi编译下来使用MPI函数调用。R-LP是更灵活的在这方面的高性能库包可以独立开发的RMPI包。这两种方法已循不同组件的框架。在后面的章节中讨论,并行I/ O接口是建立在C-LP中,而内核库和应用程序的开发遵循了R-LP方法。 2)高性能R:我们的框架的程序设计基础结构包括能够在分布式计算环境中被用于一个高性能的脚本语言。这种脚本语言界面是基于广泛使用的统计工具R。然而R语言是不适合繁重的工作,提供一个接口,如众所周知的C/ C + +/ Fortran高级计算机语言。此外,由于所有的加速器/协处理器有一个高级语言接口,一个高效的R-C接口IV使用框架的应用开发前一部分作了详细的描述,使我们的框架不同组件。在本节中,我们提出了如何应用程序可以使用这些组件。我们把这一部分分为三小节讨论使用内核算法的实现,提供了框架的优化,如何节点规模应用到集群中。注意,只在必要的时候应用程序的开发称为是R脚本在前端和内核I/O功能。A.算法 使用该框架,我们已经开发了不同的数据挖掘算法由于空间有限,只有短暂的三人的描述:k-均值[ 27 ],模糊k-均值[ 28 ],[ 29 ]和PCA [ 30 ],[ 31 ],[ 32 ],[ 33 ]。k-均值是一种广泛使用的聚类算法,它试图通过最小化平方误差在每个分区的输入数据集K分区。Kmeans算法可以使用距离计算实现,k-均值算法集群更新和直方图内核在表一的变化称为二分Kmeans提也可以。模糊k-均值区别,它允许每个记录集有一个隶属度为k-均值算法每个分区数据的超集。主成分分析(PCA)的目的是找到所输入的具有代表性的主成分数据集

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档