- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据与专业课程设置
2020年11月
摘 要
• 简要介绍大数据云计算主要内容
• 就大数据分析框架、大数据处理模式、深度学习、知识计算等方面
涉及到的相关学科,推荐相关的课程设置
• 例如,算法设计分析、数理统计机器学习、神经网络、数据挖掘等
课程。
大数据时代及其挑战和机遇
大数据的产生:(人类获取数据的能力不断增强)
• 天文学
• 2000年斯隆数字巡天(Sloan Digital Sky Survey)项目启动,在短短几周内收集到的数据,
42
已经比天文学历史上总共收集的数据还要多。到了2010年,信息档案已经高达1.4×2 字节。
不过,预计2016年投入使用的大型视场全景巡天望远镜 (Large Synoptic Survey
Telescope),能在五天之内就获得同样多信息。
• 基因学
• 2003年,人类第一次破译人体基因密码, 辛苦工作十年才完成了三十亿对碱基对的排序。大
约十年之后,世界范围内的基因仪,每15分 就可以完成同样的工作。
• 金融领域
• 美国股市每天的成交量高达70亿股,其中三分之二的交易都是由计算机软件系统自动完成的,
并且这些软件系统用海量数据来预测利益和降低风险。
• 互联网领域 爆发式增长的数据量
• 谷歌每天要处理超过24PB的数据,这意味着其每天的数据处理量,是美国国家图书馆所有
纸质出版物所含数据量的上千倍。
• Facebook每天更新的照片量超过1000万张,每天人们点击 “喜欢” (Like)按钮或者写评论大
约有三十亿次。
• Twitter上的信息量几乎每年翻一番,截止到2012年,每天都会发布超过4亿条微博。
• ……
大数据的产生
• 到底增长有多快呢?先看一看DOMO的数据。
大数据的产生
• 相比更早的历史又如何?
• 马丁·希尔伯特 (Martin Hilbert)的比较全面的研究 :范围不仅包括书籍、
图画、电子邮件、照片、音乐、视频 (模拟和数字),还包括电子游戏、
电话、汽车导航和信件等。
• 指出,在2000年的时候,数字存储信息仍只占全球数据量的25% 另外
75%的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。
• 2007年,人类大约存储了超过300EB的数据,其中只有7%是存储在报纸、
书籍、图片等媒介上的模拟数据,其余全部是数字数据。
• 数字数据的数量每三年多就会翻一倍。相反,模拟数据的数量则基本上没
有增加。
大数据的产生
• 人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长
速度则比世界经济的增长速度快9倍。
大数据的产生
• 如何产生?
大数据的产生
大数据界定及其特点
• 大数据(Big Data):
• 指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。--McKinsey
• 指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。-Wiki
• 大数据特征:3V、4V到5V 大体量 :可从数百TB到数十数
Volume 百PB、甚至EB的规模。
价值密度低:大数据包含深
度的价值,大数据分析挖掘 多样性 :各种格式和形态的数据,
和利用
文档评论(0)