常用大数据术语中英对照精简版个人整理.pdf

常用大数据术语中英对照精简版个人整理.pdf

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

常用大数据术语中英对照精简版个人整理--第1页

常用大数据术语(中英对照精简版--个人整理)

一、大数据

英文:bigdata,megadata

大数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程

优化能力的海量、高增长率和多样化的信息资产。

二、大数据的4V:

Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)

三、当前用于分析大数据的工具主要有开源与商用两个生态圈

开源大数据生态圈:

1、HadoopHDFS、HadoopMapReduce,HBase、Hive渐次诞生,早期Hadoop生态圈逐步形

成。

2、.Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

3、NoSQL,membase、MongoDb

商用大数据生态圈:

1、一体机数据库/数据仓库:IBMPureData(Netezza),OracleExadata,SAPHana等等。

2、数据仓库:TeradataAsterData,EMCGreenPlum,HPVertica等等。

3、数据集市:QlikView、Tableau、以及国内的YonghongDataMart。

四、Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高

速运算和存储。

Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有

高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high

throughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程

序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统

常用大数据术语中英对照精简版个人整理--第1页

常用大数据术语中英对照精简版个人整理--第2页

中的数据。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,

则MapReduce为海量的数据提供了计算。

五、Apache基金会

Apache软件基金会(也就是ApacheSoftwareFoundation,简称为ASF),是专门为支持开源

软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中,所发行的软件

产品都遵循Apache许可证(ApacheLicense)。

六、MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念”Map(映

射)”和”Reduce(归约)”,和它们的主要思想,都是从函数式编程语言里借来的,还有从

矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将

自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把

一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射

的键值对中的每一个共享相同的键组。

七、BI

商业智能(BI,BusinessIntelligence)。

BI(BusinessIntelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数

文档评论(0)

xxd998789 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档