基于云计算的大数据分析流程的优化路径.docx

基于云计算的大数据分析流程的优化路径.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于云计算的大数据分析流程的优化路径

?

?

摘要在大数据分析流程中,通过充分运用云计算技术来对其设计过程进行优化,能够有效提高大数据分析的有效性与针对性,并能大量减少海量数据的处理时间,使系统的响应时间大大加快。为此,本文便基于云计算技术来对大数据分析流程的具体优化路径进行深入的分析。

【关键词】云计算大数据分析流程优化路径

1大数据分析流程中存储与访问技术的优化路径分析

1.1数据流和控制流的分离

在大数据分析流程中对存储与访问技术的优化路径中,主要是利用云计算建立一種GFS文件系统来实现数据流和控制流的分离的,在GFS文件系统节点中,每个集群都有一个主控服务器,主控服务器能够对系统中的元数据进行管理,而客户端则是一种以库文件形式所提供的应用程序访问接口,数据块服务器用于将GFS节点中的数据以文件的方式进行存储和访问,在GFS集群中,数据块服务器的数量是由其集群规模来决定的。在GFS文件系统中,其是将数据以64MB的大小来进行分块存储和操作的,并且每个数据块中都有与之匹配的索引号。通过这种方式,能够使集群中的数据块服务器将信息发送给客户端,并由客户端来对这些数据服务块进行存取与读写,以此实现客户端和主控服务器的数据流直接传输,从而使主控服务器的负载得到了大幅度降低,并且使客户端能够对多个数据块服务器进行同时访问。

1.2不缓存数据的优化

长期以来,用户在访问文件时,由于磁盘性能上的缺陷,因此文件系统需要进行频繁的访问磁盘,进而产生大量的缓存数据,严重影响了客户端的访问速度,降低了系统的操作性能。而通过云计算来建立一种不缓存数据操作机制的GFS文件系统,它能够通过对文件系统性能的提高来对磁盘性能上的缺陷进行弥补,以此提高系统性能。GFS文件是将要进行操作的文件块存储到系统的内存当中,当该文件块被用户进行首次访问时,系统会先从磁盘中对文件块进行读取,而后用户每次对该文件块进行访问时,便可直接进行缓存读取,从而在提高系统操作性能的同时,也使系统的写操作性能得到提高。不缓存数据操作机制的GFS文件系统的优势在于它非常适合对大数据的实时监测与分析,减少了无用缓存数据的大量产生,并且避免了数据的频繁读写操作,实现了云计算对大数据的动态加载和伸缩,有效避免了缓存容量的局限性。

2大数据分析流程中并行处理技术的优化路径分析

2.1大数据逻辑分析的优化

在大数据分析中,主要是通过将某种具体事物或问题按照其逻辑关系来进行分解,使其分解为各个要素,然后利用比较的方式来判断这些要素对事物或问题的影响,并排列出主次关系,并通过推理来对事物或问题中各个要素之间的关系进行明确,然后将分析结果进行汇总,从而揭示该事物或问题的本质联系与内在规律。要想实现这种逻辑分析思路的优化,就必须经过对问题的分解、处理、汇总与完成,而利用云计算来建立一种数据处理模型,能够实现对海量数据的并行处理,其是通过对海量数据分析任务的分解来完成的,它通过对大量分析任务进行分解,使其成为若干分析单元与数据块,然后利用系统中的若干处理节点来对这些分解的任务进行并行计算处理,并将计算处理结果进行汇总,从而实现了对大数据分析任务的处理。在运作特征上,并行处理方式与数据分析方法基本一致,它都是经过对问题的分解、处理、汇总与完成这四个步骤。因此,从技术上来讲,将云计算的技术架构应用到大数据对问题的逻辑分析中较为可行。

2.2数据资源配置的优化

大数据在对资源进行配置时,由于其不涉及到并行处理,并且在数据模式、数据处理与数据内容上也较为简单固定,大部分时间都浪费在了对数据的寻找与定位上,从而大大延长了系统的响应时间与服务水平,因此这种资源配置的方法很难满足大数据对海量信息的分析。云计算对大数据资源配置的优化则是通过由系统进行默认或用户自行定制的方式,来将海量的数据分解为若干微阶段来进行数据处理,并通过最优执行性能的原则来对大数据分析任务进行处理,然后由系统对各微阶段中数据分析任务的执行情况进行分析与测量,此时,云计算会进一步找出各微阶段中耗时较长的部分,然后以此为依据来优化资源配置计划。

3大数据分析流程中组织与管理技术的优化路径分析

3.1数据模型组织结构的优化

云计算在对数据模型组织结构进行优化时,为了确保成千上万台机器所组成的集群能够在分布式存储架构中运行,以此实现对PB级别大数据的高效处理,设计者利用云计算技术将Bigtable设计成一种分布式多维映射表,这种分布式多维映射表能够对行、列中的关键字与时间戳进行索引,以此实现数据模型组织结构的优化。在行的设计改进中,Bigtable的最大行关键字为64KB的字符串,它能够确保在对行关键字的索引执行过程中不会受到任何事件的中断,并且在字母顺序排列方面利用倒排的方式来便于数据的压缩。在列的设计改进中,它

您可能关注的文档

文档评论(0)

151****0181 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档