- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于Spark的大数据挖掘技术分析
?
?
于晶
【摘要】文章主要介绍了以Spark为基础的大数据挖掘,首先分析了以Spark为基础的大数据生态系统,其次介绍了分布式集群与开发环境构建,再次介绍了Apriori算法实现,最后分析了以Spark为基础的分布协同过滤推荐。
【关键词】Spark;大数据;挖掘技术
因为大数据具有多样性、数据量大等特点,所以在大数据分析过程中,对于数据处理效率、速度以及实时性拥有较高要求。数据挖掘主要是以海量信息为目标,通过建模算法,找到隐藏的有用信息,充分发挥大数据价值。Spark体系主属于一种低延迟分布系统,以大范围数据集合为对象进行计算分析等操作。
一、以Spark为基础的大数据系统
(一)SparkRuntime
SparkCore中的相关功能包括内存管理和任务调度等内容,内含故障修复和存储交互相关子元素。通过RDD结构在Spark中传送数据包的过程中,应该率先掌握Spark处理关键数据的操作流程,相关数据信息和对象概念之间较为相似。首先全部的数据集都被分成数个子集,而每个子集还能够被传输至集群相关节点当中进行有效处理分析。其次,能够妥善保存计算得到的中间结果,基于可靠性对问题进行详细思考,能够收获相同的计算结果,并在子集节点相关文件内进行备份储存。最后进行计算解析时,如在处理数据子集过程中产生错误,则需要对子集进行重新整理,促进容错机制的有效落实[1]。
(二)GraphX
在Spark中,GraphX是重要的子项目,为此应该以Spark为基础进行创建,对大规模图进行准确计算的基础上,融入GraphX,同时添加其他组件,实施系统融合,能够提升整体数据处理能力,其中GraphX的主要功能为帮助采集运输计算过程中所需要的数据图形运行符号,由于类库存在诸多定义,通过隐性SCALE语言对特征进行合理转换的过程中,能够控制调节GraphOPS操作符。而GraphX内,需要对相关算法进行深入优化,从而为后期针对图集实施综合处理提供便利条件。GraphX主要优势便是能够进一步扩大数据规模,强化数据吸收力度。
(三)SparkStreaming
Spark即分布式的SparkStreaming数据处理的结构系统,对Spark原有数据处理能力进行优化拓展的基础上,使SparkStreaming能够结合相应的操作阶段对单位进行准确分割,从而构成一种RDD,通过短小的时间间隔对流式数据进行有效处理,因为受到处理延时问题的影响,从某一程度而言,还能够将其看作是实施处理结构。SparkStreaming属于一种容错结构形式,其错误恢复和错误处理水平极高,为此在错误处理方面拥有较为突出的应用优势。此外,SparkStreaming还能和Spark的生态模式实施有效对接,为此在协同处理完数据流之后,还可以对各种复杂现象进行有效处理。
二、以Spark为基础的分布式集群和开发环境构建
(一)硬件系统条件
入想进一步提高系统的运行效果和兼容性,在创建Spark集群的过程中,所应用的物理主机应该选择LINUX系统。通过三台虚拟设备和一个主机设备实施环境测试,以此为基础构建分布式集群,具体包括MASTER节点和WORKER节点两个。而MASTER的核心工作任务便是对分布式Spark应用程序进行单机编制,并进行合理调节,其配置要求较高。MASTER节点区域装置设备应该配置四核处理器以及4G的内存,而WORKER节点可以配置2G的内存。每个节点的相关硬件都是在PCIE的条件下创建固态硬盘,拥有较高的读写效率,能够进一步提升工作质量和运行速度。集群的操作形式不但可以进一步缩减运行成本,同时还可以结合现实需求适当调整节点数量,进行适当的减少或增加。
(二)构建Spark分布式集群
设置SCALA语言,同时把各个虚拟机装置中的SLAVES文件中的相关内容修改为集群内WORKER节点主机名,此外还应该针对各个节点中的Spark安装目录,即Spark-ENV.SH文件进行修改。其中,环境变量JDK对系统进行配置,SCALA-HOME这一安装路径会修改系统。MASTER内部相关各种节点主机名称和IP选择Spark_Master_IP相关属性值,剩余内容则设置为默认值,此外还需要确保集群内的各个节点文件Spark-env.sh能够始终和文件SLAVES的内容维持良好的一致性,在结束相关配置工作后,利用JPS命令对集群的启动状态进行详细查看[2]。
(三)配置IDE开发环境
SCALA语言在进行设计研发过程中,需要以IDEA为核心条件,同时也是重要的基础条件,因此可以将其作为对Spark结构程序进行设计、编程的基础环境。如果想要IDEA实际应用中缩减缓存数量,扩大I/O资源应用,占据有效空间,应该利用S
您可能关注的文档
- 《记承天寺夜游》优化作业设计-1.docx
- 持续性人文关怀护理在重症监护病房中的实施探究.docx
- 开展药学服务的好处.docx
- 互联网+下混合式教学应用于小学英语教学的实践研究.docx
- 利辛县水生态文明城市建设试点-水环境治理体系建设.docx
- 船舶舾装生产设计的质量控制.docx
- 基于造林整地与植树造林技术应用分析.docx
- 电商行业发展前景-产业报告.docx
- 建筑施工中后浇带的功能作用与施工技术分析-1.docx
- 精细化管理于现代水利工程管理上的有效运用.docx
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)