大数据分析平台Hadoop与HPCC的对比分析.pdfVIP

大数据分析平台Hadoop与HPCC的对比分析.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据分析平台Hadoop与HPCC的对比分析--第1页

大数据分析平台Hadoop与HPCC的对比分析

工业和信息化部电子科学技术情报研究所吕鹏

(北京市石景山区鲁谷路35号电科大厦,北京100040)

hellolp@

摘要随着互联网、移动互联网和物联网的发展,人类已经切实的迎来了一个海量数据的时代。大数

据从2011年开始变得越来越热门。对大数据进行分析已经成为一个非常重要和紧迫的需求。本文首

先对大数据的概念和特征进行了介绍,然后从大数据的分析平台入手,针对Hadoop和HPCC两种

数据分析平台的背景、架构、技术等方面进行跟踪和解读。从对两个平台的对比中可以看出,对于

大数据分析平台的技术和架构还有待研究,以更好的满足时代的需求。

关键词大数据HadoopHPCC大规模数据集并行运算软件框架

大数据作为一种新兴的数据挖掘技术,正使数据处理和分析变得更便宜更快速。大数据技术一

旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经

营的模式。

1什么是大数据?

在研究大数据之前,让我们先了解一下什么是大数据。百度百科对于大数据的定义是这样的:

从各种各样类型的数据中快速获得有价值信息的能力,就是大数据技术。[1]

大数据的特点有四个层面:

第一,容量(volume)。大数据容量巨大:从TB级别跃升到PB级别。

第二,类型(variety)。大数据中存在着繁多的数据类型。

第三,价值(value)。毫无疑问,大数据是有价值的,但是价值密度低:以视频为例,连续不间

断监控过程中,可能有用的数据仅仅有一两秒。因此,该价值如同稻草堆中的一枚缝衣针,具有稀

疏性的特征。

第四,速度(velocity)。此处的速度包括快速的数据流转和动态的数据体系。这点也是大数据

跟传统的数据挖掘技术相比的本质不同。试想,前一天对电子商务数据的分析在第二天才能得到结

果,这样电子商务就无法实时的根据结果制定决策判断,使得分析失去了意义。

因此,业界将其特点归纳为4个“V”——olumeV,Variety,Value,Velocity。

在计算机世界里,大数据作为一种使用非传统数据过滤工具对大量有序或无序数据集合进行的

挖掘过程,它包括但不仅限于分布式计算(Hadoop)。下面将针对两种大数据分析平台Hadoop和

HPCC进行介绍和对比。

2大数据分析平台HADOOP

提到大数据,我们可以想到很多相关的技术或者产品,其Hadoop中技术备受用户关注。

2.1HADOOP简介

152

大数据分析平台Hadoop与HPCC的对比分析--第1页

大数据分析平台Hadoop与HPCC的对比分析--第2页

ApacheHadoop是一种开源软件框架,它支持数据密集型的分布式应用程序,并被授予了Apache

v2许可。[2]

它使应用程序可以运行于上千台独立计算的计算机,并可处理PB量级的数据。“Hadoop”

一词源于谷歌的MapReduce和谷歌文件系统(GFS)论文。

整个ApacheHadoop“平台”一般被认为由Hadoop内核、MapReduce和HDFS组成,其中也包括

一些相关的项目:如ApacheHive、ApacheHBase等。

Hadoop采用Java语言编写,是一个顶级的Apache的项目,由来自全球的社区贡献者建设并使

用。ApacheHadoop项目及相关项目(Hive、HBase、Zookeeper等)有很多跨生态系统的贡献者。

2.2HADOOP的

文档评论(0)

LLFF111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档