基于Spark的大数据挖掘技术分析.docxVIP

下载本文档

2
0
约4.3千字
约 4页
2024-09-10 发布于湖北
举报
版权申诉

基于Spark的大数据挖掘技术分析.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Spark的大数据挖掘技术分析

于晶

【摘要】文章主要介绍了以Spark为基础的大数据挖掘，首先分析了以Spark为基础的大数据生态系统，其次介绍了分布式集群与开发环境构建，再次介绍了Apriori算法实现，最后分析了以Spark为基础的分布协同过滤推荐。

【关键词】Spark;大数据;挖掘技术

因为大数据具有多样性、数据量大等特点，所以在大数据分析过程中，对于数据处理效率、速度以及实时性拥有较高要求。数据挖掘主要是以海量信息为目标，通过建模算法，找到隐藏的有用信息，充分发挥大数据价值。Spark体系主属于一种低延迟分布系统，以大范围数据集合为对象进行计算分析等操作。

一、以Spark为基础的大数据系统

（一）SparkRuntime

SparkCore中的相关功能包括内存管理和任务调度等内容，内含故障修复和存储交互相关子元素。通过RDD结构在Spark中传送数据包的过程中，应该率先掌握Spark处理关键数据的操作流程，相关数据信息和对象概念之间较为相似。首先全部的数据集都被分成数个子集，而每个子集还能够被传输至集群相关节点当中进行有效处理分析。其次，能够妥善保存计算得到的中间结果，基于可靠性对问题进行详细思考，能够收获相同的计算结果，并在子集节点相关文件内进行备份储存。最后进行计算解析时，如在处理数据子集过程中产生错误，则需要对子集进行重新整理，促进容错机制的有效落实[1]。

（二）GraphX

在Spark中，GraphX是重要的子项目，为此应该以Spark为基础进行创建，对大规模图进行准确计算的基础上，融入GraphX，同时添加其他组件，实施系统融合，能够提升整体数据处理能力，其中GraphX的主要功能为帮助采集运输计算过程中所需要的数据图形运行符号，由于类库存在诸多定义，通过隐性SCALE语言对特征进行合理转换的过程中，能够控制调节GraphOPS操作符。而GraphX内，需要对相关算法进行深入优化，从而为后期针对图集实施综合处理提供便利条件。GraphX主要优势便是能够进一步扩大数据规模，强化数据吸收力度。

（三）SparkStreaming

Spark即分布式的SparkStreaming数据处理的结构系统，对Spark原有数据处理能力进行优化拓展的基础上，使SparkStreaming能够结合相应的操作阶段对单位进行准确分割，从而构成一种RDD，通过短小的时间间隔对流式数据进行有效处理，因为受到处理延时问题的影响，从某一程度而言，还能够将其看作是实施处理结构。SparkStreaming属于一种容错结构形式，其错误恢复和错误处理水平极高，为此在错误处理方面拥有较为突出的应用优势。此外，SparkStreaming还能和Spark的生态模式实施有效对接，为此在协同处理完数据流之后，还可以对各种复杂现象进行有效处理。

二、以Spark为基础的分布式集群和开发环境构建

（一）硬件系统条件

入想进一步提高系统的运行效果和兼容性，在创建Spark集群的过程中，所应用的物理主机应该选择LINUX系统。通过三台虚拟设备和一个主机设备实施环境测试，以此为基础构建分布式集群，具体包括MASTER节点和WORKER节点两个。而MASTER的核心工作任务便是对分布式Spark应用程序进行单机编制，并进行合理调节，其配置要求较高。MASTER节点区域装置设备应该配置四核处理器以及4G的内存，而WORKER节点可以配置2G的内存。每个节点的相关硬件都是在PCIE的条件下创建固态硬盘，拥有较高的读写效率，能够进一步提升工作质量和运行速度。集群的操作形式不但可以进一步缩减运行成本，同时还可以结合现实需求适当调整节点数量，进行适当的减少或增加。

（二）构建Spark分布式集群

设置SCALA语言，同时把各个虚拟机装置中的SLAVES文件中的相关内容修改为集群内WORKER节点主机名，此外还应该针对各个节点中的Spark安装目录，即Spark-ENV.SH文件进行修改。其中，环境变量JDK对系统进行配置，SCALA-HOME这一安装路径会修改系统。MASTER内部相关各种节点主机名称和IP选择Spark_Master_IP相关属性值，剩余内容则设置为默认值，此外还需要确保集群内的各个节点文件Spark-env.sh能够始终和文件SLAVES的内容维持良好的一致性，在结束相关配置工作后，利用JPS命令对集群的启动状态进行详细查看[2]。

（三）配置IDE开发环境

SCALA语言在进行设计研发过程中，需要以IDEA为核心条件，同时也是重要的基础条件，因此可以将其作为对Spark结构程序进行设计、编程的基础环境。如果想要IDEA实际应用中缩减缓存数量，扩大I/O资源应用，占据有效空间，应该利用S