- 1、本文档共64页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据安全基础
信息、数据与大数据的定义
我感到奇怪的是事物何以集成?体。
通信的基本问题是,在?点精确地或近似地复现在另?点所选取的讯息。这些讯息往往都带有意义。
——香农
信息(information)
是对客观世界中各种事物的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。
理解1:信息泛指人类社会(物理空间+网络空间)传播的一切内容,是“意义”的载体。理解2:(信息论)信息是用来消除随机不确定性的东西。
理解3:(控制论)信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容和名称。
信息的三个特点
1.消息x发生的概率P(x)越大,信息量越小;反之,发生的概率越小,信息量就越大。可见,信息量(我们用I来表示)和消息发生的概率是相反的关系。
2.当概率为1时,百分百发生的事,地球人都知道,所以信息量为0。
3.当一个消息是由多个独立的小消息组成时,那么这个消息所含信息量应等于各小消息所含信息量的和。
信息的最小度量单位:1个二进制波形的信息量=1比特(bit)
信息、数据与大数据的定义
数据(data)
指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。
理解1:数据是可识别的、抽象的符号。
理解2:(计算机)数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。
数据的语义特点
数据的表现形式还不能完全表达其内容,需要经过解释,数据和关于数据的解释是不可分的。
如:93是一个数据,可以是某门课的成绩,也可以是某个人的体重,还可以是某个组织的人数。数据的解释是指对数据含义的说明,数据的含义称为数据的语义,数据与其语义是不可分的。
数据的形式:数字数据vs模拟数据,电子数据vs物理数据
信息、数据与大数据的定义
大数据(bigdata)
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的4V特点
Volume——数据体量巨大。
从TB级别,跃升到PB、ZB级别,爆炸式增长。
Velocity——数据生成速度快,相应的处理速度、运算性能要求高效。
大数据处理的“1秒定律”。与传统的数据挖掘技术有着很大不同。
Variety——数据类型繁多。
包括结构化数据与非结构化数据,包括网络日志、视频、图片、地理位置信息等等。
Value——价值密度低,但价值巨大。是“金矿”,也是经济发展的“引擎”。
以视频为例,连续无间断监控过程中,有用数据或许只有一两秒,却能做成“天眼”。
大数据的来源
数据类型
人
企业
政府
自然社会
结构化数据
个人档案数据社交通讯数据
资产与银行账户数据电商购物数据
内部管理数据
产品销售与客户数据人力资源管理数据
资产和财务数据
机构设置和职能公职人员数据
财政、人口、社保、卫生、教育、统计数据
宏观经济分析数据
地理位置自然统计
...
非结构化数据
图像、影像数据
个人病历数据
个人网上日志数据工作学习资料数据
客户非规律化反馈数据
生产线上实时数据行为未来风险数据企业竞争情报数据
公共空间图像、影像数据
城市部件联网数据社会舆情
突发事件
空间数据气象数据海洋
地质山川
...
待发掘数据
衣食住行特色和习性数据
DNA和生理特征数据非电子化的社交体育兴趣、爱好等数据
理性、情绪化特征数据
不同产业链与企业关联数据
社会行为趋势与企业发展相关数据
法律和政府环境与企业关联数据
自然灾害不可抗力数据
文化和社会道德
社会心态和价值取向政府管理和服务效能
天文数据深海数据地壳数据碳排放
...
大数据的基因表达
隐藏了安全性
信息与数据的关联与区别
信息与数据密可分,既有联系,又有区别。
数据
信息
层次关系
支撑于信息之下
加载于数据之上
性质关系
是符号,物理性的
是对数据进行加工处理之后得到的,对决策与处理产生影响,是逻辑性和观念性的
表里关系
是信息的表现形式和载体
是数据的内涵意义,对数据作具有含义的解释
先后关系
先有本身没有意义的数据
再有数据对实体行为产生影响成为信息
数据与大数据的关联与区别
传统数据
大数据
数据格式
结构化数据
非结构化数据+结构化数据
存储模式
集中存储
分布式存储
计算平台
数据库查询平台有
文档评论(0)