大数据漫谈之多样性和混杂性.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据漫谈之多样性和混杂性

不能神化大数据是万灵药,也不能矮化大数据就是包装旧概念。本系列会剥开大数据的每一个概念,追溯它的源头和发展过程,并给出个人的见解。在本篇开始之前,首先就前文作一些补充说明:

1.大数据是一种新的数据形态和实践,它与当前主流的数据应用实践并

存,而非取代。而且,它在相当长的时间内仍然是个新鲜事物,即使年复合增长率高达32%,到2016年全球大数据技术和服务市场总额也就是240亿美金左右(IDC在2012年底的预测)。不切实际、一窝蜂地上大数据项目不应鼓励。明明不算大数据,要装成有,偏要削足适履上马Hadoop和NoSQL,更不足取。

2.大数据也是一种战略、世界观和习惯。即使今天没有大体量的数据,还是可以尽可能自觉、客观、全面地测量世界,为未来的大数据实践做准备。对于一个企业或系统来说,挑战在数据采集,而非存储。微信在设计之初就把数据监控精细化,并纳入基础框架,这是意识和实力的体现。有多少公司像彭博社那样“如饥似渴”地采集数据?它能够雇佣一个卫星每周对位于俄克拉何马的美国最大原油储备库拍照,根据油罐浮动顶的阴影长度来判断原油储备量的变化。成功者有成功的必然性。

3.“数据即价值”的价值观早已存在,Value不是大数据专享的属性,小数据照样有大价值。大数据的功劳在于唤醒大家的意识和觉悟。同样,从数据中发现价值的实践也由来已久,横跨数据库、统计学和机器学习交叉学科的数据分析是大数据分析的基础,但传统的数据分析实践是无法适应大数据的发展的,这一点我会在分析这一部分中细谈。

总之,不能神化大数据是万灵药,也不能矮化大数据就是包装旧概念。对一部分人来说,大数据已经是个客观存在和竞争优势;对绝大多数人来说,大数据可以是一种“从现在做起”的世界观,和未雨绸缪、决战未来的战略。本系列确有为大数据推波助澜之意,但不会随波逐流兜售概念;相反,我会剥开每一个概念,追溯它的源头和发展过程,并给出个人的见解。

正文:

上回说到对大数据大体量的界定,只有少数产业和企业能够对大体量感同身受,对更多的憧憬者来说,大数据不是进行时,而是未来时。这让无数空有一身Hadoop技艺的架构师和程序猿/媛扼腕太息。

且慢,听听微软研究院这位老哥的吐槽:根据微软和Yahoo的统计,所有Hadoop任务放一起一平均,输入数据集的大小也就是十几个GB;即使是

Facebook,90%的任务数据集小于100GB。这这这?这又让言必称ZB的布道者们情何以堪?

说来说去还是要回到大数据的定义上来。上回说IDC为业界巨擘摇旗呐喊ZB时代,旋即又用100TB作为大数据的门槛。其实,100TB不是故事的全部。这次好好摆一摆IDC对大数据的界定。IDC高手论道,一张图搞定:

它的三步界定法是这样讲的:

1.三个数据源场景:数据要么不小于100TB,要么来自于超高速的数据

流,或者年增速大于60%。这三者是OR的关系,满足其一即可。这下好,很多中小企业可以进入大数据的候选队伍了。王侯将相,宁有种乎?数据少但速度可以快,基数小但增速可以大,只要秉持自觉、客观、全面测量世界的大数据观。

2.无论你有哪种或哪几种数据,必须部署在可动态适应的基础设施

(dynamicallyadaptableinfrastructure)上。IDC专门强调,此基础设施并非一定要水平扩展架构(scale-outinfrastructure),传统的scale-up架构也行。更重要的是,这个新名词把基于云的基础设施也包括了进去。要做大数据并非一定要自己部署Hadoop或NoSQL,把基础设施的事情留给云,自己专心从数据里提炼价值,不亦乐乎?有了AmazonAWS,四个人就可以做一个大数据初创企业Prismatic。

3.第三步两个数据部署场景:部署中必须有不少于两个的数据格式或数据源,或者高速流数据源(如点击流或机器产生的数据流)。

好吧,不用执念于Volume了,我们接着这第三步讲Variety。

自道哥(DougLaney)开立“三V经”伊始,Variety在大数据五个大V(前几天某人又提了第六个V,Viability,以后再表)排名老三,为什么Variety拿到系列第二篇讲呢?

在下不是百晓生,自然不敢乱排座次。虽然在下确实自赋过顺口溜一句:

“大(Volume)、杂(Variety)、快(Velocity)、真(Veracity)、值(Value)”(大杂脍真值),但这万万不是Variety排第二的理由。Variety能做老二的最大底气来自于占大数据体量八成以上的非结构化数据。天知道这“八

文档评论(0)

166****9181 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档