基于大数据分析技术的数据安全与机器学习.docxVIP

基于大数据分析技术的数据安全与机器学习.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

??

?

??

基于大数据分析技术的数据安全与机器学习

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

摘要:随着大数据时代的降临,数据成为了我国战略资源与创新生产的重要基础,资产与战略价值不断增长的同时,海量的数据也在持年增加,随之而来的就是针对这些海量数据增长下所引发的安全性问题。而机器学习在我国属于一门较为新兴的学科,应用十分广泛。对此,本文针对基于大数据分析技术的数据安全与机器学习进行深入的探讨与分析,并结合实际应用,阐述以机器学习来解决一定范围内的数据安全问题。

关键词:大数据;机器学习;数据安全

引言

伴随着计算机等多种学科的高速发展,机器学习也逐渐诞生,并且得到了较为广泛的应用,像在检测垃圾邮件、人脸识别、语音识别等方面。在通过现有的研究成果当中能够了解到,机器学习已经在数据安全方面得到了非常权威的应用。基于对大数据的概念,对其特点展开分析,并深入了解当前数据安全的重要性,探讨如何应用机器学习来解决对于数据安全的问题,以此来更好的迎合大数据时代的发展。

大数据的意义

现如今,网络的普及促使人们网络行为成为了常态化的现象。而大数据就随着这种网络不断产生,很多企业针对数据进行采集,逐渐渗透并扩散,像是现在社交软件言论,网络购物数据等等。在传统的结构与意义上,数据是不同的,但是这些数据都包含了数据生产者的真实信息。总体而言,大数据具有很高的价值,而当前也正是一个大数据的发展时代。

大数据处理技术及其处理框架在多个层面上是计算机技术的融合。大数据处理涉及多个软件、硬件系统的综合信息处理技术。在大数据处理技术的主要技术层面和技术内容上划分为不同层面,具有着各自的功能与特点,详见表1。

表1大数据处理技术

大数据应用层

大数据领域应用和服务层

交通、电信、医疗、金融、公安、商业、生物、遥感、矿物勘探。

领域应用、服务需求与分析模型

应用设计开发层

大数据应用开发坏境与工具平台

大数据分析算法层

综合分析法层

社会网络分析、图像处理、自然语言处理、生物信息处理、媒体分析检索、Web信息挖掘检索、可视化计算等

基础算法层

并行化基础分法

大数据计算层

并行计算系统平台

通用并行计算系统Hadoop、Spark,图计算系统GraphLab,流计算系统Storm等

并行计算模式

批处理、流式计算,图计算迭代计算直询分析、内存计算模式

大数据存储层

分布式数据库

分布式数据库存储系统(HBase,Cassand等NoSQL数据库、NewSQL数据库、分布式SQL数据库)

分布式文件系统

分布式文件存储系统

大数据处理资源层

系统架构与硬件资源

分布式集群,多核,众核,混合异构平台(如集群+众核,集群+GPU)云计算资源与支撑平台

基于大数据的数据安全

2.1新技术带来的挑战

分布式计算机在其存储架构、数据深度挖掘和可视化新技术方面都提升了数据资源的存储范围与能力。但是,也为整体数据的安全保护带来了全新的挑战。第一就是对系统安全的边界模糊,极有可能引入未知漏洞,分布式节点距离之间与大数据相关组件之间的通信安全已经成为了全新的安全薄弱重点。第二,分布式数据资源池具有汇集众多用户数据的功能,却也产生了用户数据隔离的困难,大数据一般在云端存储,而云端的开放性非常强,使用范围与用户的数据十分庞大,导致安全风险问题持续累计。在分布式数据中,对不同分布式文件系统的特性对比也具有一定的代表性,详见表2。

表2分布式文件系统的不同特性对比

名称

Alluxio

CephFS

GlusterFS

HDFS

整体架构

集中式

集中式;

多点集中式

分散式

集中式;

多点集中式

存储介质

以内存为中心;封层式存储

基于磁盘

基于磁盘

基于磁盘

容错方式

世系关系;备份

多副本;

纠删码(可选)

基于网络的

RAID

多副本;纠删码(开发中)

I/O优化策略

数据局部性;多级缓存

缓存;(cacbetiering)

缓存;(I/Ocache)

数据局部性

提供的API

原生接口;

FUSE接口;

Hadoop兼容接口;

命令行接口

原生接口;

FUSE接口;

Hadoop兼容接口;

命令行接口

FUSE接口;

REST接口;

原生接口;

FUSE接口;

REST接口;

命令行接口

2.2新需求带来的挑战

在大数据时代背景下,每个领域对于数据资源的应用和占比需求都在不断增加。数据之所以被广泛的应用和收集,来源于它的智能性与便捷性。移动智能终端、智能联网设备、传感器都对其进行了广泛的吸收应用,这促使虚拟世界正在成为现实世界的一种写照。对于数据不对延伸扩散和安全信息保护来说是全新的挑战。

机器学习的概述

机器学习是当前逐渐新兴的一门交叉科学,现如今已经逐渐应用在多个领域当中,像是语音识别、垃圾邮件检测等等。机器学习其策略内容丰

文档评论(0)

186****7928 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档