网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据的方法及可能应用—王磊分解.doc

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据的研究方法及可能应用 王磊 【】: 【】: 关于大数据 数据的海洋 20世纪90年代后期,以信息技术、计算机技术、网络技术等为代表的高新技术快速发展,以此为标志,人类社会正式迈入数字时代。现在,伴随着各种各样的智能设备和轻巧灵便的可穿戴计算设备的普及,我们的行为、地理位置、收入与支出、身体生理状况等衣食住行的方方面面都成为了可以被记录和分析的数据。数据量也就由此在不断增大,而且,数据的种类和形式也在持续的更新。可以说,我们的生活已经被日益增长的数据所充斥。 事实上,各行各业都先后受到了数据增长带来的冲击。在天文学领域,2000年美国的斯隆数字巡天(Sloan Digital Sky Survey)项目启动,位于美国新墨西哥州的大型天文望远镜在短短几周内收集到的数据已经比天文学历史上总共收集到的数据还要多。到了2010年,天文望远镜收集到的数据总量已经高达1.4×2^42字节。在生物学领域,2003年人类第一次破译人体基因密码,全世界的优秀科学家们辛苦工作了十年才完成了30亿对碱基对的排序。而到了现在,世界范围内的基因仪每15分钟就可以完成相同的工作。在金融领域,美国股市每天的成交量高达70亿股,更令人惊讶的是,其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的。在互联网领域,Facebook这个创立时间不足十年的公司,每天更新的照片量超过1000万张,每天人们在网站上点击“喜欢(Like)”按钮或者写评论大约有三十亿次,这就为Facebook公司挖掘用户喜好提供了大量的数据线索。[1] 总之,在各个领域都出现了爆发式增长的数据。这种增长的速度超过了我们创造任何一种机器的速度,甚至超过了我们的想象。 那么,我们周围究竟有多少数据呢?这些数据增长的速度又有多快呢?根据南加利福尼亚大学的统计学家马丁·希尔伯特(Martin Hilbert)的估算,在2007年人类大约存储了超过300艾字节(EB)的数据。[2] 在这里,1艾字节(EB)等于2^60字节(B)。这是个什么概念呢?一部完整的电影总可以被压缩为1个吉字节(GB)的大小,而1个艾字节(EB)相当于10亿吉字节(GB),是一个非常巨大的单位。这就是说,2007年人类储存的数据总量超过了3000亿部电影的数据量。如果我们一天看一部这样的电影,需要近10亿年的时间才能看完!这还不是最为庞大的数字,2010年全球数据总量约为1.8泽字节(ZB),预计2020年全球数据总量将达到40泽字节(ZB)的规模。[3] 1个泽字节(ZB)是1024艾字节(EB),是比艾字节(EB)更为巨大的单位。由此可见,人类现在创造的数据总量是相当庞大的。不仅如此,人类存储数据的信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。[4] 我们真的是被数据的海洋淹没了。 大数据的概念及特征 如此巨大和快速增长的数据量催生了大数据(Big Data)概念的产生。大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。[5] 从这个概念上看,大数据必然不能通过单台计算机进行处理,也不能使用传统的方法进行分析,必须依托于云计算这一先进的技术。同时,大数据具有4个基本特征。第一,数据体量巨大EB级别,到ZB级别。第二,数据类型繁多,。网络、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,有用的数据仅仅有一两秒,第四,速度快。V特征,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。6] 大数据的意义 、公共卫生变革 2009年,甲型H1N1流感病毒爆发,牵动了全世界人民的心。与以往流感爆发的疫情不同,在这次疫情中,谷歌公司发布的数据代替习惯性滞后的官方数据成为了一个更有效、更及时的指示标,公共卫生机构的官员从谷歌公司获得了非常有价值的数据信息。实际上,谷歌公司获取疫情数据的方法是建立在大数据的基础之上的。 在如今的互联网时代,很多人在身体不适时,总会首先在网络上有哪些信誉好的足球投注网站与之相关的词条再决定是否去看医生。例如,如果我们出现咳嗽和发热的症状,或许我们会有哪些信誉好的足球投注网站“哪些是治疗咳嗽和发热的药物”这种词条。于是,这种特殊的检索词条就会流露出流感侵袭的信息。而作为全球最大的有哪些信誉好的足球投注网站引擎公司,谷歌公司每天都会收到超过30亿条的有哪些信誉好的足球投注网站指令,而且,谷歌公司保存了多年来的全部有哪些信誉好的足球投注网站记录。以此为基础,谷歌公司把疫情蔓延时5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,如此这般分析人们的有哪些信誉好的足球投注网站记录就可判断这些人是否感染了流感病毒。 于是,谷歌公司通过观察人们在网络上的有哪些信誉好的足球投注网站记录成功预测了

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档