基于云计算的大数据分析平台构建分析.docxVIP

基于云计算的大数据分析平台构建分析.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

基于云计算的大数据分析平台构建分析

?

?

程剑

摘要:信息時代,一个显著特征是大数据时代的到来。这一特征直接导致大批新技术与产品的不断更新换代。传统的数据处理技术往往处理不了关联度高以及结构复杂的数据,分析时间响应过长,基于云计算的大数据分析平台则能够有效避免这些缺陷。

关键词:云计算;大数据分析平台构建

:TP311.13?:A?:1672-9129(2020)10-0022-01

1?基于云计算的大数据分析平台概述

平台对数据的获取和记录通常包括五个阶段,即对数据的抽取、整合、表达、建模和诠释。这五点是对大数据处理最基本的过程。但由于大数据不同于以往的数据库,其中包含的数据量过于庞大,这就导致了传统的数据处理流程不足以满足对其中数据的获取和记录。而在云技术的普及和应用时代中,云平台由于其高算力与拓展性高的两大优势,用来处理与存储大信息量再合适不过。而且,云平台所拥有的另一大优势,就是这种对存储的兼容在半结构和非结构化的数据上同样很实用。但这些只满足了数据的感知、传输和存储要求,还不足以达到对数据的认知和应用的需求。想要把云计算技术应用真正发挥出数据价值,还需要提高系统分析数据的速度,即在强大云算力的支撑基础上的先进数据算法的支持。

2?大数据分析平台的网络数据安全与防护

网络数据资源在传输过程中遭遇到的安全威胁是用户时时刻刻关注的问题,因此在具体的工作和管理中,需要提高云计算网络安全技术的应用程度,通过不断创新安全模式,完善相应的防护体系,从而有效消除安全性问题,提升数据传输的安全性和稳定性。具体在应用过程中,可以借助云计算技术的优势,对数据传输的整个路径进行监控,保证传输通道环境的安全性,一旦出现问题及时进行预警,有效预防黑客的攻击,降低网络安全事故发生的概率。对此,有关网络安全管理部门应该提高重视程度,同时完善相应的监督管理制度,采用科学的管理方式,实现预期的监测目标。

3?大数据分析平台存在的重点问题分析

3.1数据的管理和储存问题。对大数据平台,首先要解决的是储存数据的问题。针对于大数据,需要建立分布式系统,针对不同的用户需求,建立多种库数据和数据管理方法。分布式文件系统可以充分利用系统固有资源,也能通过多种方式来检测数据,从而满足不同需求。针对这两种数据服务,建立数据储存结构成为了比较困难的问题。因为大数据中存在惊人的数据量,还有一些文档、图表和音视频文件,以及其他半结构化或是非结构化的数据,想要更好地处理这些数据,需要建立高效的储存模块。关于键值、图表等形式的数据,目前还没有一个硬性的规范来储存这些数据,所以,这里可以将这类信息以文档的格式进行储存,而且以数据库模式来处理这些图表或是键值,比较符合现代的社会网络化管理要求。建立数据库可以减少申请这个环节,与传统方法相比存在很大优势。

3.2数据的收集和储存效率问题。处于互联网模式下,数据集会不断增多,所以,需要不断完善数据收集和储存效率。目前使用的数据收集技术完全满足不了互联网用户的需求,而且这对内存消耗较大。使用基于云计算的大数据分析平台可以通过远程内存访问协议提供更加快速的数据运算服务,同时也能降低内存消耗。对于大数据处理技术而言,可以采取多种数据收集储存方式,建立一个数据流处理系统,这也可以提高数据收集的效率,同时节省更多的计算资源成本,而且能够更加高效的挖掘具有价值的数据信息。

4?大数据分析平台的基础架构

基于云计算的大数据分析平台通过SPARK框架来进行架构,在SPARK框架下,主要是将数据以分区方式存储,即RDD,在数据处理中,SPARK需要先对待处理数据创建一个RDD,然后对RDD施加转换和行动操作。转换的主要目的是促使RDD迭代,即利用某些函数来促使旧的RDD迭代为新的RDD,然后行动操作利用具体的算法来将RDD中的数据进行计算,进而返回计算结果。RDD默认情况下是存储在内存当中,对内存的要求非常高,当然实际上可以通过调整设置,将RDD存储在存储器当中,但运算速度会比较慢,一些经常使用的RDD若存储在存储器当中,在运算时需要将其调用至内存中,多了一个过程,导致变慢,所以可以将一些常用的RDD保存在内存中。基于SPARK的云计算平台架构,用户采取自定义程序的方式,先定义好应用程序,然后提交至SPARK集群,主节点上启动进程MASTER,子节点上则启动进程WORKER,主节点进程MASTER会在子节点的WORKER上启动一个任务管理程序DRIVER。在DRIVER中,任务的复杂程度由SPARKCONTEXT进行判别并向主节点申请处理器和内存的资源,并对EXECUTOR进行初始化,生成DAG。DAG需要传递给TASKSCHEDULER。在TASKSCHEDULER生成TASKSET,并转发TASK任务至EXECUTOR执行。

5?大

您可能关注的文档

文档评论(0)

+ 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档