- 1、本文档共640页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第1章绪论;1.1大数据发展背景
1.2大数据基本概念与特点
1.3大数据处理的关键技术
1.4大数据处理系统框架
1.5大数据应用;1.1大数据发展背景;1)第三次信息化浪潮;2)信息科技为大数据时代提供技术支撑;来自斯威本科技大学(SwinburneUniversityofTechnology)的研究团队,在2013年6月29日刊出的《自然通讯(NatureCommunications)》杂志的文章中,描述了一种全新的数据存储方式,可将1PB(1024TB)的数据存储到一张仅DVD大小的聚合物碟片上。;图CPU晶体管数目随时间变化情况;图网络带宽随时间变化情况;3)数据产生方式的变革促成大数据时代的来临;4)大数据发展历程;1.2大数据基本概念与特点;;从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同;;1.2大数据基本概念与特点; 价值密度低,商业价值高
以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值;1.3大数据处理的关键技术;数据采集需要注意的问题:
首先就是正确性。大数据其中的一个特征是真实性,数据一定是来自于真实的业务系统,它的值和描述一定和真实的业务系统保持一致,这是数据分析的前提。从数据源采集过来的数据可能有些值有问题,比如交易金额小于零或者是电话号码位数不正常。这些违反常识的数据,有必要验证数据的正确性。对不正确的数据采取相应的处理措施,比如删除或者是使用默认值进行填充,还是直接使用空值,需要根据实际的情况进行判断。
第二是完整性。完整性指两个方面,一方面是指每一条数据的完整性,比如一条交易记录,它应该是有买方,也有卖方。这类似于数据库里面使用外界关系来保证数据的完整性。另一方面指的是整个数据的完整性,数据采集的过程中不能有任何的信息损失。比如要查看一个学校的成绩情况,如果只是统计部分班级的成绩,毫无疑问这并不能够反映出整个学校的情况,因为有可能只是取了部分好的班级,而有一些较差的班级的数据被遗漏了,这样统计出来的结果肯定是有失偏颇的。
第三是一致性。一致性指的是数据的值和描??在整个数据仓库中应该是保持一致的,比如有个系统,它有个数据集里面性别字段,它用0表示女性,1表示男性。而在另外一个系统里面,是用1表示女性用0表示男性。这时候就需要将数据的表示意义进行统一。数据的不一致性,往往是因为不同系统之间的数据模型不一致造成的。因为不一样的系统往往是有不一样的人进行设计的。他们对数据模型的定义可能会不一样。这是数据采集中需要注意的问题,它的目的就是为了保证数据的质量。;1.3大数据处理的关键技术;1.3大数据处理的关键技术;1.3大数据处理的关键技术;其实我们经常将并行计算和分布式计算混为一谈,没有严格的去区分它们。如果说非要区分的话,用维基百科上的一段话说就是并行计算它所有的处理器共享内存,可以在内存中直接交换数据,而分布式计算它的每个处理器都有自己独立的内存,数据的交换需要通过处理器之间来实现,也就是说他们在任务之间的数据共享上是有区别的。;数据分析的目的一般有两种,一种是预测,一种是得出结论。如果是预测的话,直接用模型对新的数据进行预测就可以了,如果是结论性质的,就需要通过一种手段将结果简单、清晰、有效地展示出来。在大数据里面,有一门专门研究如何将分析结果展示出来的学科,叫做数据可视化。;大数据在世界范围内的应用已经十分广泛,例如Google公司曾经通过全美各地区有哪些信誉好的足球投注网站H1N1及流感相关关键字频率和分布得出疫情暴发的情报;对冲基金通过Twitter用户每天关于情绪的关键字进行以亿为单位的数据分析,作为买入和卖出股票的参考;Boston的爆炸案通过当天的数据分析,第二天就抓获了嫌疑犯并制止了其再次作案。;大数据带来的安全挑战主要分为3类:
(1)用户隐私保护:不仅限于个人隐私泄露,还在于基于大数据对人们状态和行为的预测,目前用户数据的收集、管理和使用缺乏监督,主要依靠企业自律。
(2)大数据的可信性:威胁之一是伪造或刻意制造数据,而错误的数据往往会导致错误的结论,威胁之二是数据在传播中的逐步失真。
(3)如何实现大数据访问控制:访问控制的第一个问题是难以预设角色,实现角色划分,第二个问题是难以预知每个角色的实际权限。;传统高性能计算中的并行编程模型抽象度不高,开发人员需要了解底层的配置和并行实现细节,并行计算面临的如下挑战:
(1)编程困难
并行计算编程,首先要把问题中的并行性识别出来,也就是需要识别哪些部分是可以并行的,然后用编程语言把它表达出来,所以这个部分是很困难的。其次,并
您可能关注的文档
- 《C语言程序设计第二版》全套教学课件.pptx
- 《大数据存储技术与应用》全套教学课件.pptx
- 《大数据技术实用教程》全套教学课件.pptx
- 《高级财务管理》全套教学课件.pptx
- 《管理学》经管类专业全套教学课件.pptx
- 《建筑工程计量与计价》中职全套教学课件.pptx
- 《新编普通高校大学生军事课教程》全套教学课件.pptx
- 财务报表编制与分析(大数据财务分析)全套教学课件.pptx
- 船舶货运全套教学课件.pptx
- 液态成型设备全套教学课件.pptx
- GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 中国国家标准 GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 《GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs)》.pdf
- GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- 中国国家标准 GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 中国国家标准 GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 《GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样》.pdf
- 《GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯》.pdf
- 中国国家标准 GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯.pdf
文档评论(0)