- 1、本文档共39页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据安全专题研究;主要内容;一、什么是大数据;有多大?---数据度量;1B=一个字符或一粒沙子
1KB=一个句子或几撮沙子
1MB=一个20页的幻灯片演示文稿、一本小书或一大汤勺沙子
1GB=书架上9米长的书或者整整一鞋盒子的沙子
1TB=300小时的优质视频、美国国会图书馆存储容量的十分之一或者一个操场沙箱
1PB=35万张数字照片或者一片1.6公里长的海滩
1EB=1999年全世界生成的信息的一半或上海到香港之间的海滩
1ZB=无法想象,或者几乎全世界所有的海滩之和。;大数据(bigdata),也称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
;最早将大数据用于IT环境的是知名咨询公司麦肯锡。
麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
;2、大数据的特点(4v);3、大数据的结构类型;4、大数据的实例;5、大数据发展史;我们周围到处都是数字信息。(无线电波、电话电路、计算机电缆)
三种主要的模拟/数字转换为数据增长提供了动力:用胶片拍摄影像转换为数字拍摄影像、模拟语音转换成为了数字语音、模拟电视转换成为数字电视。
2007年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。
数字信息的增长是因为网络应用的不断增长。
约30年前,大部分数据都是结构化的,如今,多媒体技术的普及后,非结构化数据爆炸式增长。;可视化是引起数字世界急剧膨胀的原因之一。由
于数码相机、数码监控摄像机和数字电视内容的
加速增多,及信息的大量复制趋势,使得数字世界的容量和速度超过之前。
个人日常生活的“数字足迹”也大大刺激了数字宇宙的快速增长。通过互联网、电子邮件、移动电话、数码相机和在线信用卡??易等方式,每个人的日常生活都在数字化。
大数据快速增长的部分原因归于智能设备的普及,比如传感器和医疗设备,以及智能建筑。
非结构化信息的增长部分归功于宽带数据的增长。;;大数据与云计算;二、大数据的相关技术;分布式文件系统
特点:
支持PB级的大数据集;
提供高可靠、高吞吐率的顺序数据访问;
存储与计算共享节点(存储节点会同时参与应用程序的执行);
使用廉价的硬件(高可扩展性)。
典型的代表:
GFS(Google)、HDFS(Hadoop)
;HDFS-分布式文件系统
采用典型的主从结构的架构设计,实现文件系统
元数据和应用数据分离存放。
名字节点:整个集群的主节点,管理元数据,文
件访问的控制。
数据节点:从节点,负责来自客户端的读写请
求,完成对文件内容的提取和保存。
文件分块,采用一次写多次读的文件访问模式。;HDFS-分布式文件系统
;MapReduce
MapReduce计算模型可以说是大数据处理的核
心算法。
MapReduce实现了Map和Reduce两个功能。
Map把一个函数应用于集合中的所有成员,然后返
回一个基于这个处理的结果集。Reduce对结果集进
行分类和归纳。
Map()和Reduce()两个函数可能会并行运行,即
使不是在同一的系统的同一时刻。;单词计数
给一个巨大的文本,计算单词的个数?!;单词计数
使用MapReduce求解该问题
定义Map和Reduce函数;单词计数
使用MapReduce求解该问题
Step1:自动对文本进行分割,形成初始的key,value对。;单词计数
使用MapReduce求解该问题
Step2:在分割之后的每一对key,value进行用
户定义的Map进行处理,再生成新的key,value
对。;单词计数
使用MapReduce求解该问题
Step3:对输出的结果集归拢、排序(系统自动完成)。;单词计数
使用MapReduce求解该问题
Step4:通过Reduce操作生成最后结果。;;NOSQL
特点:
不需要预定义模式(不需要预定义数据模式,预定义表结构,数据每条记录都可能有不同的属性和格式);
无共享(将数据划分后存储在各个本地服务器上);
弹性可扩展(运行时可动态添加删除节点);
分区;异步复制。
您可能关注的文档
- 5+组织设计学习课件.pptx
- 7渠道权力学习课件.pptx
- 暑假口才1学习课件.pptx
- 审计第17章学习课件.pptx
- 生物公开课学习课件.pptx
- 环保产品学习课件.pptx
- HTML基础培训学习课件.pptx
- LG成本管理(3)学习课件.pptx
- 领导力管理学习课件.ppt
- 水准仪培训学习课件.pptx
- 安全控制系统(SCS)系列:Siemens SIMATIC Safety (用于石油和天然气行业)all.docx
- 安全控制系统(SCS)系列:ABB System 800xA Safety (用于石油和天然气行业)_28.安全控制系统的设计与选型.docx
- 安全控制系统(SCS)系列:Emerson DeltaV SIS (用于石油和天然气行业)_(4).DeltaV SIS硬件配置与选型.docx
- 安全控制系统(SCS)系列:Schneider Electric Safety Barrier (用于石油和天然气行业)_(14).安全管理与培训.docx
- 安全控制系统(SCS)系列:Siemens SIMATIC Safety (用于石油和天然气行业)_10.案例研究:石油和天然气应用中的SIMATIC_Safety系统.docx
- 分布式控制系统(DCS)系列:Emerson DeltaV (用于石油和天然气行业)_(7).DeltaV系统的维护与故障排除.docx
- 分布式控制系统(DCS)系列:Schneider Electric EcoStruxure Foxboro DCS (用于石油和天然气行业)_16.项目管理与实施流程.docx
- 分布式控制系统(DCS)系列:Yokogawa CENTUM VP (用于石油和天然气行业)_(19).石油和天然气行业的特定需求与挑战.docx
- 安全控制系统(SCS)系列:ABB System 800xA Safety (用于石油和天然气行业)_12.800xA安全系统的维护与故障排除.docx
- 安全控制系统(SCS)系列:Siemens SIMATIC Safety (用于石油和天然气行业)_8.安全相关通信协议.docx
文档评论(0)