网站大量收购独家精品文档,联系QQ:2885784924

数据发布中隐私护的匿名模型及算法研究.pdf

数据发布中隐私护的匿名模型及算法研究.pdf

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据发布中隐私护的匿名模型及算法研究

数据发布中隐私保护的匿名模型及算法研究 摘要 目前在数据库领域存在着大量的与个体相关的数据,如:人口统计数据、客户购 物数据、患者医疗数据等,称之为微数据。这些数据对于趋势分析、市场预测等具有 重要的价值。然而,由于这些数据中含有个体的隐私信息,它们的发布和共享会对个 体的隐私构成威胁。因此,数据发布中隐私保护问题的研究具有重要的意义。 在数据发布的隐私保护研究中,匿名化方法以其安全、有效成为目前该领域的研 究热点。匿名化方法的思想是通过对原始数据进行某种变换,使攻击者无法唯一的推 导出敏感信息所属的具体个体,从而实现个体隐私的保护。本文从匿名化模型及算法 两个方面,对数据发布中的隐私保护问题进行了研究,主要工作有: 较小的肛匿名化算法之一,它产生的匿名数据质量高,但效率低,不适合处理大的数 据集。Top.down是‘‘个高效的匿名化算法,但产生的信息损失大。本文结合Top—down 表明:所提出的算法可以达到与KACA算法近似的信息损失,与Top.down算法近似 的效率,能更高效、更好的实现肛匿名模型。 (2)提出一个实现敏感值个性化隐私保护的匿名模型。现有的匿名模型如:缸匿 名模型、厶多样性模型等都是针对整个数据表设置一个全局的匿名化约束,而没有考 虑隐私保护的个性化需求。当数据中各个敏感属性值的分布不均匀时,这些模型就不 能很好地实现隐私保护。为此,本文提出完全(口,七).匿名模型,通过为每个敏感值设 置不f司的频率约束,来实现对敏感值的个性化隐私保护;并基于加权层次距离,提出 (a,k).聚类算法。实验结果表明:完全(口,k)一匿名模型能够有效的实现敏感值的个性 化隐私保护。 (3)提出一个面向数值型敏感属性的分级多样性模型。现有的7-多样性模型主要 适用于分类型敏感属性的数据,而不适用于数值型敏感属性的数据。为此,本文提出 面向数值型敏感属性的分级多样性模型。该模型首先将数值型敏感属性域分级,再基 于分级信息实现数值型敏感属性的多样性。本文还设计了实现分级多样性模型的 /-Incognito算法。从匿名表的多样度的角度对分级多样性和未分级的多样性进行了比 较,实验结果表明:前者产生的匿名数据具有更高的多样度,凶而前者具有更强的抵 摘要 制同质性攻击和背景知识攻击的能力。 关键词:隐私保护;肛匿名;完全(仅,幼.匿名;分级多样性;泛化 II on Modelsand for Research Algorithms Anonymity Data Publishing Privacy—Preservation ABSTRACT Thereare ofdata to database individuals,namedmicrodata,inarea, plenty relating etc.Thesedata as dataandmediacaldata such data,customershopping play demographic roleintrend thesedata an etc.However,because

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档