【优质】1倪光南-_大数据及其应用.ppt

【优质】1倪光南-_大数据及其应用.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【优质】1倪光南-_大数据及其应用.ppt

* * 2013中国云计算产业年会暨 云计算最佳应用实践巡展(镇江站) 大数据及其应用 倪光南编写 2013年4月12日 * 从商业智能(BI)到大数据 大数据从数据挖掘、商业智能(BI)发展而来,经典实例如下: “啤酒与尿布”:20世纪90年代沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。这样,他们在尿布货柜附近放置了啤酒,结果销量大幅上升。 美国第二大超市Target为了抓住含金量很高的一个顾客群体——孕妇,通过数据挖掘建立了一个模型,选出了25种典型商品的消费数据构建了“怀孕预测指数”,由此,它能在很小的误差范围内预测到顾客的怀孕情况,从而能早早地把孕妇优惠广告夹杂在其他一大堆与怀孕不相关的商品广告中发出去,有效地招揽了孕妇顾客群。这种优惠广告间接地令一个蒙在鼓里的父亲意外发现他高中生的女儿怀孕了,一时轰动全美。 * 怎样发展到大数据? 随着互联网、移动互联网的发展,1. 数据产生和发送的速度和频率急剧增长;2. 数据源的数目和种类上升。全球范围内可用的数字数据从2005年的150EB增长到2010年的1200EB。预计在以后一些年里将年增长40%,即相当于人口增长速度的40倍。这意味着数字数据从2007到2020将增长44倍,或每20个月翻一番。 这些新的数字数据源包括有哪些信誉好的足球投注网站、新闻、博客、微博等社交网、移动电话和短信、热线电话、监控数据、遥测数据……,产生的新数据的特点是:一般以数字方式产生;往往是我们日常生活或与数字服务交互的副产品;一般是自动收集、有在数据产生时同时提取和存储它的系统;在地理上或短时期里可以跟踪,如手机位置数据或通话持续时间;可连续地进行实时或近乎实时的分析。 这些新的情况再加上云计算的发展,为大数据提供了合适的环境和处理能力,推动数据挖掘、商业智能发展到大数据。 * 商业智能和大数据的比较 名称 商业智能 大数据 数据量 不太大,常为TB量级(1012Byte) 大,常为PB量级(1015Byte) 数据特性 结构化信息,非实时信息 主要为非结构化信息,如文本、图形、音频、视频、遥感遥测信息……,大多是实时信息 数据来源 主要为企业交易数据 主要是社会日常运作和各种服务中实时产生的数字数据,如在线有哪些信誉好的足球投注网站、新闻、博客、微博等社交媒体、移动电话和短信、热线、电子商务交易、遥感遥测数据…… 应用领域 主要是自然科学范畴 主要是社会科学范畴,如经济学和社会学应用、政治政策应用等 * 大数据的一些特性 大数据的“实时”性并不意味着真正的实时,而往往是近似的“实时”: 在一个相对短、相对新的时间里产生并可资利用; 在一个与场景有关的短时期里,即能容许作出响应,并判定效果的一个时间段里(即容许产生一个反馈过程)产生并可资利用。 新的数字数据源的特点: 从人们使用数字服务被动收集到的交易数据 联机数据,网页有哪些信誉好的足球投注网站、新闻媒体和社会媒体的交互数据 物理传感器数据 居民报告或群体源的主动数据 * 科学研究的第四范式 图灵奖获得者吉姆?格雷(Jim Gray)基于e-Science的思路提出:大数据是科学研究的第四范式(the fourth paradigm)。 e-Science是英国科学技术局研究理事会前任会长约翰?泰勒(John Taylor)提出的,它实际上是一种基础设施,它提供了一种信息化的科学研究的环境和平台,使得不同学科领域的研究和科研活动能够有针对地开发特定的科学研究与应用。实际上,像现在的核反应模拟、航空航天设计、生命科学研究……无一不依赖于高性能计算机及相应的数值计算方法,属于计算密集型科研。 第四范式的思想是和e-Science一脉相承的,第四范式是从计算密集型科研发展到以大数据为基础的数据密集型科研方法,从目前看来它将在越来越多领域的研究中发挥重大的甚至是决定性的作用。 * 科学研究方法(范式)的发展 * 资料来源:潘柱廷,《攻击大数据》 科学研究范式(paradigm)的发展过程,最早是实验型科研(Experimental Science),这已有几千年的历史了,后来发展到理论型科研(Theoretical Science),这也有数百年的历史了,近几十年发展到计算型科研(Computational Science),现在则推进到第四范式——以大数据为基础的数据密集型科研(Data-intensive Science)。 各种科学研究范式的关系 这几种范式在实际科研中往往同时使用,相辅相成。 第一种范式即实验型科研是最基本的方法,因为任何科学都需要用实验来检验;理论在未经实验证实前,只能作为假设,所以第

文档评论(0)

lostemple_1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档