2大数据时代-思维变革---1更多.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2.大数据时代的思维变革

“大数据”全在于发现和理解信息内容及信息与信息之间的关系,然而直到最近,我们对此似乎还是难以把握。IBM的资深“大数据”专家杰夫·乔纳斯(JeffJonas)提出要让数据“说话”。从某种层面上来说,这听起来很平常。人们使用数据已经有相当长一段时间了,无论是日常进行的大量非正式观察,还是过去几个世纪里在专业层面上用高级算法进行的量化研究,都与数据有关。在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据。但当我们谈论能“说话”的数据时,我们指的远远不止这些。实际上,大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。●首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。●其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。●最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。1.大数据时代的思维变革——更多“更多”——不是随机样本,而是全体数据当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。

让数据“发声”小数据时代的随机采样,最少的数据获得最多的信息全数据模式,样本=总体

大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。

事实上,我们形成了一种习惯,那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。为了理解大数据时代的转变意味着什么,我们需要首先回顾一下过去。让数据“发声”利用所有的数据,而不再仅仅依靠一小部分数据。 –数据的收集 过去,因为记录、储存和分析数据的工具不够好,我们只能收集少量数据进行分析,这让我们一度很苦恼。数据的处理工具为了让分析变得简单,我们会把数据量缩减到最少。这是一种无意识的自省:我们把与数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。统计学:用尽可能少的数据来证实尽可能重大的发现。

穿孔卡片与美国人口普查美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,预计要花费13年的时间来汇总数据。即使不考虑这种情况违反了宪法规定,它也是很荒谬的。然而,因为税收分摊和国会代表人数确定都是建立在人口的基础上的,所以必须要得到正确的数据,而且必须是及时的数据。美国人口普查局面临的问题与当代商人和科学家遇到的问题很相似。很明显,当他们被数据淹没的时候,已有的数据处理工具已经难以应付了,所以就需要有更多的新技术。后来,美国人口普查局就和当时的美国发明家赫尔曼·霍尔瑞斯(HermanHollerith)签订了一个协议,用他的穿孔卡片制表机来完成1890年的人口普查。经过大量的努力,霍尔瑞斯成功地在1年时间内完成了人口普查的数据汇总工作。这简直就是一个奇迹,它标志着自动处理数据的开端,也为后来IBM公司的成立奠定了基础。但是,将其作为收集处理大数据的方法依然过于昂贵。毕竟,每个美国人都必须填一张可制成穿孔卡片的表格,然后再进行统计。这么麻烦的情况下,很难想象如果不足十年就要进行一次人口普查应该怎么办。但是,对于一个跨越式发展的国家而言,十年一次的人口普查的滞后性已经让普查失去了大部分意义。小数据时代的随机采样 在过去,只有教会或者政府才拥有大规模收集和分类数据的能力。人口普查——一项耗资且费时的事情1096年英国威廉一世《末日审判书》 三百多年前,一个名叫约翰·格朗特JohnGraunt的英国缝纫用品商提出了一个很有新意的方法。他采用了一个新方法推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。古罗马在拥有数十万人口的时候每5年一次美国宪法规定每10年一次–1880年,8年–1890年,预计13年,穿孔卡片用了1年事实证明,问题的关键是选择样本时的随机性

统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。虽然听起来很不可思议,但事实上,一个对1100人进行的关于“是否”问题的抽样调查有着很高的精确性,精确度甚至超过了对所有人进行调查时的97%[3]。这是真的,不管是调查10万人还是1亿人,20次调查里有19次都能猜对。为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量

文档评论(0)

181****0009 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档