网站大量收购独家精品文档,联系QQ:2885784924

数据隐私保护技术探究综述.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据隐私保护技术探究综述

数据隐私保护技术探究综述摘要:随着信息技术的发展,数据库系统的广泛应用,如何防止隐私数据和敏感信息不泄露成为当前面临的重大挑战。对数据隐私保护技术研究的现状进行了介绍,并着重介绍了几种主流隐私保护技术的特点。在此基础上对隐私保护技术进行了分析和总结,提出了数据隐私保护技术未来的研究方向。 关键词:隐私保护;数据挖掘;数据库应用 0、引言 随着网络技术和通信技术的日益成熟以及网络通信带宽的不断增加,越来越多的数据在网上进行发布和交换,丰富的数据资源一方面加大了数据分析和数据挖掘的需求,另一方面,数据资源的隐私保护问题给数据挖掘提出了新的挑战。 1 隐私保护中的关键问题 1.1 隐私 隐私是指个人、机构等实体不愿意被外部知晓的信息[1]。比如,个人的行为模式、兴趣爱好、健康状况、公司的财务状况等。个人隐私即为数据所有者不愿意被披露的敏感信息,如个人的收入水平、健康状况、兴趣爱好等。由于人们对隐私的限定标准不同,对隐私的定义也有所差异。一般来说,任何可以确认特定个人的,但个人不愿意披露的信息都可以称为个人隐私。 1.2 数据挖掘 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),就是从大量数据中获取有效地、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识[2]。数据挖掘可以对得到的数据库查询结果进行高效、智能化的处理,从中自动获取先前未知的模式和信息。但是,倘若毫无限制地进行挖掘,必然会对一些隐私数据造成侵犯。从本质上说,数据挖掘是研究如何利用数据库中现有的数据推导出未知的数据,而隐私保护则是防止用户推出敏感数据。形象地说,数据挖掘是进攻,而隐私保护则是防守。 1.3 隐私保护度量标准 隐私保护技术在保护隐私的同时,还要兼顾应用价值和计算开销。综合起来,隐私保护技术的度量标准有以下三个方面: (1)隐私保护度。 一般通过数据隐私的披露风险来反映,披露风险越小,隐私保护度越高[3]。 (2)数据质量/服务质量。在数据发布中,数据质量是指发布数据的可用性,数据的可用性越高,数据质量越好。一般采用信息丢失率(即信息扭曲度)[4]来衡量数据质量的好坏。 (3)算法性能。一般利用时间复杂度对算法性能进行度量。例如,时间复杂度为O(k)的近似k-匿名算法,显然优于复杂度为O(klogk)的近似算法。 2 数据隐私保护技术 在上述度量标准的基础上,下面开始对几种主流的数据隐私保护技术进行介绍和分析。 2.1 基于匿名的隐私保护技术 匿名技术是隐私保护中广泛使用的技术,通过隐藏或不收集用户的身份敏感信息,允许用户提交数据而且不暴露自己的身份[5]。因其处理简单,在数据库应用中较容易使用。然而通过匿名技术收集的数据难以保证质量,因为在没有身份确认的情况下大量用户会提交无用的随机数据。并且系统容易受到竞争对手的攻击。例如一个公司在数据库系统中输入大量的伪造数据来使自己生产的产品获得更多的推荐。因此在数据库应用中确认用户的身份是十分必要的。 2.2 基于关联规则的隐私保护技术 关联规则挖掘是一种典型的数据挖掘方法,最早由Agrawal等人提出。关联规则挖掘可以发现存在于数据库中的项目或属性间的有趣关系。这些关系是预先未知的和被隐藏的,也就是说不能通过数据库管理系统所提供的逻辑操作或统计的方法得出。现有的各种关联规则挖掘算法大致可分为有哪些信誉好的足球投注网站算法、层次算法、数据集划分算法、抽样算法等。关联规则挖掘作为数据挖掘中最重要的方法之一,已经也在隐私保护方面取得了一定的研究成果,可以利用到基于关联规则的数据服务中。关联规则中隐私保护的基本策略有数据干扰和查询限制两大类[6]。 数据干扰策略就是对原始数据按照一定的规则进行预变换,然后在经过干扰的数据上运行数据挖掘算法,得到所需的模式和规则。 查询限制策略则是通过数据隐藏等方式来改变特定规则的支持度和置信度,然后用概率统计的方法或者分布式计算的方法得到所需的挖掘结果。 2.3 基于协同过滤的隐私保护技术 协同过滤推荐技术基于相似用户群的兴趣向目标用户产生推荐,是当前数据库服务中最成功、使用最广泛的推荐技术之一。它只依赖于用户对项目的评分矩阵,因此对于各种特定应用都有很好的适应性,可提高数据应用系统的可扩展性和推荐质量。与其他数据挖掘技术一起,在协同过滤算法中加入隐私保护机制近年来引起了越来越多的学者的研究兴趣,是一个崭新的领域,需要得到更多的关注。目前协同过滤中隐私保护技术基本可以分为基于密码学的方法和数据变换两大类[7]。 基于密码学的方法是通过对原始数据进行加密处理的方法。安全多方计算是

您可能关注的文档

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档