《大数据技术基础》全套教学课件.pptx

《大数据技术基础》全套教学课件.pptx

  1. 1、本文档共640页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第1章绪论;1.1大数据发展背景

1.2大数据基本概念与特点

1.3大数据处理的关键技术

1.4大数据处理系统框架

1.5大数据应用;1.1大数据发展背景;1)第三次信息化浪潮;2)信息科技为大数据时代提供技术支撑;来自斯威本科技大学(SwinburneUniversityofTechnology)的研究团队,在2013年6月29日刊出的《自然通讯(NatureCommunications)》杂志的文章中,描述了一种全新的数据存储方式,可将1PB(1024TB)的数据存储到一张仅DVD大小的聚合物碟片上。;图CPU晶体管数目随时间变化情况;图网络带宽随时间变化情况;3)数据产生方式的变革促成大数据时代的来临;4)大数据发展历程;1.2大数据基本概念与特点;;从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少

1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同;;1.2大数据基本概念与特点; 价值密度低,商业价值高

以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值;1.3大数据处理的关键技术;数据采集需要注意的问题:

首先就是正确性。大数据其中的一个特征是真实性,数据一定是来自于真实的业务系统,它的值和描述一定和真实的业务系统保持一致,这是数据分析的前提。从数据源采集过来的数据可能有些值有问题,比如交易金额小于零或者是电话号码位数不正常。这些违反常识的数据,有必要验证数据的正确性。对不正确的数据采取相应的处理措施,比如删除或者是使用默认值进行填充,还是直接使用空值,需要根据实际的情况进行判断。

第二是完整性。完整性指两个方面,一方面是指每一条数据的完整性,比如一条交易记录,它应该是有买方,也有卖方。这类似于数据库里面使用外界关系来保证数据的完整性。另一方面指的是整个数据的完整性,数据采集的过程中不能有任何的信息损失。比如要查看一个学校的成绩情况,如果只是统计部分班级的成绩,毫无疑问这并不能够反映出整个学校的情况,因为有可能只是取了部分好的班级,而有一些较差的班级的数据被遗漏了,这样统计出来的结果肯定是有失偏颇的。

第三是一致性。一致性指的是数据的值和描??在整个数据仓库中应该是保持一致的,比如有个系统,它有个数据集里面性别字段,它用0表示女性,1表示男性。而在另外一个系统里面,是用1表示女性用0表示男性。这时候就需要将数据的表示意义进行统一。数据的不一致性,往往是因为不同系统之间的数据模型不一致造成的。因为不一样的系统往往是有不一样的人进行设计的。他们对数据模型的定义可能会不一样。这是数据采集中需要注意的问题,它的目的就是为了保证数据的质量。;1.3大数据处理的关键技术;1.3大数据处理的关键技术;1.3大数据处理的关键技术;其实我们经常将并行计算和分布式计算混为一谈,没有严格的去区分它们。如果说非要区分的话,用维基百科上的一段话说就是并行计算它所有的处理器共享内存,可以在内存中直接交换数据,而分布式计算它的每个处理器都有自己独立的内存,数据的交换需要通过处理器之间来实现,也就是说他们在任务之间的数据共享上是有区别的。;数据分析的目的一般有两种,一种是预测,一种是得出结论。如果是预测的话,直接用模型对新的数据进行预测就可以了,如果是结论性质的,就需要通过一种手段将结果简单、清晰、有效地展示出来。在大数据里面,有一门专门研究如何将分析结果展示出来的学科,叫做数据可视化。;大数据在世界范围内的应用已经十分广泛,例如Google公司曾经通过全美各地区有哪些信誉好的足球投注网站H1N1及流感相关关键字频率和分布得出疫情暴发的情报;对冲基金通过Twitter用户每天关于情绪的关键字进行以亿为单位的数据分析,作为买入和卖出股票的参考;Boston的爆炸案通过当天的数据分析,第二天就抓获了嫌疑犯并制止了其再次作案。;大数据带来的安全挑战主要分为3类:

(1)用户隐私保护:不仅限于个人隐私泄露,还在于基于大数据对人们状态和行为的预测,目前用户数据的收集、管理和使用缺乏监督,主要依靠企业自律。

(2)大数据的可信性:威胁之一是伪造或刻意制造数据,而错误的数据往往会导致错误的结论,威胁之二是数据在传播中的逐步失真。

(3)如何实现大数据访问控制:访问控制的第一个问题是难以预设角色,实现角色划分,第二个问题是难以预知每个角色的实际权限。;传统高性能计算中的并行编程模型抽象度不高,开发人员需要了解底层的配置和并行实现细节,并行计算面临的如下挑战:

(1)编程困难

并行计算编程,首先要把问题中的并行性识别出来,也就是需要识别哪些部分是可以并行的,然后用编程语言把它表达出来,所以这个部分是很困难的。其次,并

您可能关注的文档

文档评论(0)

163 + 关注
实名认证
内容提供者

知识分享

1亿VIP精品文档

相关文档