网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据分析与隐私保护 .pdfVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据分析与隐私保护

虞慧群;裴新;范贵生

【摘要】大数据为商业创新和社区服务带来了巨大利益.然而,由于大数据分析技术

挖掘出的信息可能超出人们想象,隐私问题备受关注.介绍大数据分析方法及支撑架

构,剖析大数据的安全与隐私保护相关技术,并提出一种基于云存储的大数据隐私保

护方案.

【期刊名称】《微型电脑应用》

【年(卷),期】2014(030)011

【总页数】4页(P1-4)

【关键词】大数据分析;隐私保护;安全;云计算

【作者】虞慧群;裴新;范贵生

【作者单位】华东理工大学信息学院,上海200237;华东理工大学信息学院,上海

200237;华东理工大学信息学院,上海200237

【正文语种】中文

【中图分类】TP393

随着云计算、物联网等技术的兴起,计算机应用产生的数据量呈现了爆炸性增长,

大数据已成为科技界和企业界甚至世界各国政府关注的热点[1]。《Nature》在

2008推出专刊阐述大数据问题所需的技术以及面临的一些挑战。《Science》也

对大数据研究中的科学问题展开讨论,说明大数据对于科学研究的重要性。美国政

府发布了“大数据研究和发展倡议”,正式启动“大数据发展计划”。计划在科学

研究、环境、生物医学等领域利用大数据技术进行突破。我国工信部电信研究院于

2014发布大数据白皮书,对大数据关键技术、应用、产业和政策环境等核心要素

进行分析,梳理提出大数据技术体系和创新特点,描述大数据应用及产业生态发展

状况。大数据已成为目前学术界和产业界共同关注的问题。

大数据之“大”有两方面的含义:一方面是数据数量巨大、数据种类繁多、数据采

集高速;另一方面指的是应用于这类数据的分析规模大,最终才能获取具有价值的

信息。目前大数据的发展仍然面临着许多问题,隐私问题是人们公认的关键问题之

一[2]。由于大数据需要收集和发布移动数据、社会媒体数据、视频数据等。这些

数据的集中存储不仅会增加数据的泄露风险,而且如何保证这些数据不被滥用,以

及如何监管和控制对基础数据的分析和挖掘,都是用户隐私保护中重要的问题。如

果数据拥有者直接发布隐含着敏感信息的数据,而不采取适当数据保护技术,将可

能造成个人敏感信息的泄露。在大数据环境中,用户或商家既是数据的生产者,又

是数据的存储、管理者和使用者,因此,单纯通过技术手段限制商家对用户信息的

使用,实现用户隐私保护是极其困难的事[3]。

本文主要从大数据的结构特征分析出发,对大数据的体系结构及问题进行分析,并

提出相应技术与策略以实现对大数据的隐私进行保护。

大数据不仅指数据本身的规模,也包括数据采集、数据存储平台、数据分析系统和

数据衍生价值等要素。这种应用模式的开放性和多样化等特点,导致大数据的信息

安全和传统信息安全体系存在较大差异。

1.1大数据来源

目前,社会信息化和网络化的发展导致数据爆炸式增长,大数据用于描述规模超出

了日常软件在可容忍期限内获取、管理和加工数据的能力。据统计,百度每天大约

要处理几十PB的数据,Facebook每天生成300TB以上的日志数据。同时,教

育科研、医疗卫生、电力行业、智能交通、电子政务等各行业也有大量数据在不断

产生。据著名咨询公司IDC的统计,2011年全球被创建和复制的数据总量为1.8

ZB(1021),而到2015年这一数值预计会达到8ZB。然而,大数据主要以非结构

化数据为主,传统技术难以应对。为此,谷歌提出了一套以分布式为特征的全新技

术体系,即分布式文件系统(GFS,GoogleFileSystem)、分布式并行计算

MapReduce和分布式数据库BigTable等技术,这类技术将计算和存储节点在物

理上结合在一起,从而避免在数据密集计算中易形成的I/O吞吐量的制约,同时

采用了分布式架构,能达到较高的并行访问能力。这些技术奠定了当前大数据技术

的基础。

1.2大数据分析方法

通过数据采集和初步的过滤处理,可以存储和检索分类数据。而有效的分析使得人

们能够从静态的数据中获取具有预测性和结论性的信息。大数据分析创造的价值远

高于数据本身,目前的主流技术包括:

(1)数据挖掘:从大量的数据中通过算法有哪些信誉好的足球投注网站隐藏于其中信息的过程。通常与计

算机科学、统计学、在线分析处理、情报检索、机器学习、专家系统和模式识别等

诸多方法结合从而实现上述目标。数据挖掘主要由数据准备、规律寻找和规律表示

3个步骤组成。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖

掘的数据集;规

文档评论(0)

136****8179 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档