网站大量收购独家精品文档,联系QQ:2885784924

大数据除了能统计出吃虫子还是吃螃蟹.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据除了能统计出吃虫子还是吃螃蟹

大数据除了能统计出吃虫子还是吃螃蟹,还能指导医疗 图片:Y 版权图片库 大数据的威力 吴军,见过世界80%的名画真迹 大数据更重要的在于它的多维度和完备性,有了这两点才能将原本看似无关的事件联系起来,恢复出对事物全方位完整的描述。 进入正题前,先举一个例子,看看数据的重要性。 2012 年,世界上人口最多的 10 个城市(不包括远郊县)是哪些?我拿这个问题问了十几个人,他们给我的答案大多是这样一些城市:上海、重庆、东京、北京、孟买等(这些都是中国、印度这种人口大国的大都市),或者东京、纽约和巴黎等世界名城。事实上,除了上海、纽约、东京和德里,世界上人口最多的 10 个城市中的 6 个都是一般人想不到的。世界地图网站综合了 2012 年世界各国人口普查结果,给出了世界上人口最多的 10 大城市,如下表所示。 其中首尔、马尼拉、卡拉奇、圣保罗和雅加达,要是不看数据,很难想得到。 数据很重要,那么什么是大数据? 大数据的数据量自然是非常大的,这一点毫无疑问,但光是量大还不算我们所说的大数据。大数据更重要的在于它的多维度和完备性,有了这两点才能将原本看似无关的事件联系起来,恢复出对事物全方位完整的描述。为了说明这一点,我们再来看一个的例子。 2013 年 9 月,百度发布了一个颇有意思的统计结果——《中国十大“吃货”省市排行榜》。百度没有做任何的民意调查和各地饮食习惯的研究,它只是从“百度知道”的 7700 万条与吃有关的问题里“挖掘”出一些结论。但这些结论看上去比任何学术研究的结论更能反映中国不同地区的饮食习惯。我们不妨看看百度给出的一些结论: 在关于“什么能吃吗”的问题中,福建、浙江、广东、四川等地的网友最常问的是“什么虫能吃吗”,江苏、上海、北京等地的网友最常问的是“什么的皮能不能吃”,内蒙古、新疆、西藏,网友则最关心“蘑菇能吃吗”,而宁夏网友最关心的竟然是“螃蟹能吃吗”。宁夏网友关心的食物一定会让嗜吃螃蟹的江苏浙江网友大跌眼镜,反过来也是一样,宁夏网友会惊讶有人居然要吃虫子! (下面的截图来自:中国十大吃货省市排行榜) 百度做的这件小事,其实就是大数据的一个典型应用,它有这样一些特点:首先,数据本身非常“大”,7700 万个问题和回答可不是一个小数目;第二,这些数据维度其实非常多,它们涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等等,而且这些维度也不是明确地给出的(这一点和传统的数据库不一样)。在外人看来,这些原始的数据“相当杂乱”,但是恰恰是这些看上去杂乱无章的数据将原来看似无关的维度(时间、地域、食品、做法和成分等)联系了起来。经过对这些信息的挖掘、加工和整理,就得到了有意义的统计规律,比如不同地域的居民饮食习惯。 说到这里,大家可能会有个疑问:上面这些统计似乎并不复杂,按照传统的统计方法应该也可以获取。我不能说传统的方法在这里行不通,但是难度是相当大的,比一般人想象得要大。我们不妨看看搁在过去,要想获得这些统计结果必须做哪些事情。首先,要设计一份合理的问卷(这并不容易),然后要从不同地区寻找具有代表性的人群进行调查(这就是盖洛普一直在做的事情),最后要半人工地处理和整理数据。这么做不仅成本高,而且如同盖洛普民调一样,很难在采样时将各种因素考虑周全。如果后来统计时发现调查问卷中还应该再加一项,对不起,补上这一项的成本几乎要翻番。 传统方法难度大的第二个原因,是填写的问卷未必能反映被调查人真实的想法。要知道大家在百度知道上提问和回答是没有压力,也没有功利的,有什么问题就提什么问题,知道什么答案就回答什么。但是在填写调查问卷时就不同了。大部分人都不想让自己表现得“非常怪”,因此多半不会在答卷上写下自己有“爱吃臭豆腐”的习惯,或者“喜欢吃虫子”的嗜好。 中央电视台过去在调查收视率时就遇到过这样的情况,他们发现通过用户填写的收视卡片调查出的收视率,和自动收视统计盒子得到的结果完全不同。从收视卡片得到的统计结果中,那些大牌主持人和所谓高品位的节目收视率明显地被夸大了,因为用户本能地要填一些让自己显得有面子的节目。我本人也做过类似的实验,从社交网络的数据得到的对奥巴马医疗改革的支持率(大约只有 24%)比盖洛普的结果(41%)要低得多。 大数据的好处远不止是成本和准确性的问题,它的优势还在于多维度(或叫全方位)。过去计算机能够存储和处理的数据通常有限,因此只收集与待解决问题相关的数据,这些数据只有很少的几个维度,而看似无关的维度都被省略掉了。这种限制也决定了特定的数据使用方式,即常常是先有假设或者结论,然后再用数据来验证。现在,云计算的出现使我们可以存储和处理大量关系很复杂甚至是原本看似没什么用的数据。工作的方法就因此而改变了。除了使用数据验证已有的结论外,还可以从这些数据本身出发,不带任何固有的想法,看看数据本

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档