第7课数据挖掘的高级主题课件.ppt

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7课数据挖掘的高级主题课件

数据隐藏 目标: 隐藏被保护信息 私有数据可用 噪声较大 真实值不能确定得到 主要技术 匿名技术 随机的数据转换(random data perturbation) 阻塞技术(blocking) 聚集或融合技术(aggregation or merging) 交换技术 (swapping) 采样技术 (sampling) 基于阻塞的技术(blocking) A B C D 1 1 1 0 1 0 1 1 0 0 0 1 1 1 1 0 1 0 1 1 A B C D 1 1 1 0 1 0 ? 1 ? 0 0 1 1 1 1 0 1 0 1 1 Blocking Algorithm Initial Database New Database 主要用于组织隐私的保护 随机的数据转换(random data perturbation) A B C D 1 1 1 0 1 0 1 1 0 0 0 1 1 1 1 0 1 0 1 1 Sample Database A B C D 1 1 1 0 1 0 0 1 0 0 0 1 1 1 1 0 1 0 0 1 Distorted Database Distortion Algorithm 随机的数据转换 目标 统计属性可以较精确得到 个体数据不能得到 离散型变量转换 布尔型变量 分类型 (Category) 变量 连续型变量转换 布尔型变量 转换 分类型变量 转换 连续型变量 转换 布尔型变量转换 购物篮问题 数据位以概率p 被翻转 对经过变化的数据进行挖掘 分类型变量转换 Select-a-size Randomization Cut and Paste Randomization Select-a-size Randomization 给定大小为t的事务, 构造t’: 选择j 属于0 到m P[j被选择的概率]= pm[j] 把事务加入t的 j个项加入事务·t’; 其它不在事务t的属性以概率pm 加入事务 t’ 参数pm[j]和pm的选择基于需要的隐私度 Cut and Paste Randomization 给定大小为t的事务, 构造t’: 在0到Km间选择 j 把事务t 的j个项加入t’; 事务t的其它项以概率pm加入 t’ 参数Km和pm的选择基于所需要的隐私度 连续型变量隐私保护挖掘方法 Agrawal and Srikant, SIGMOD’00 Bayes’ rule 改进by Agrawal and Aggarwal, SIGMOD’01 Expectation Maximization (EM) Bayes’ rule Agrawal and Srikant (2000) Decision Trees Perturb Data with Value Distortion 用户提供 xi+r 代替 xi r 是一个随机变量,服从分布 平均分布 [-a, a] 高斯分布 (u, σ) Bayes’ rule x1,x2,…,xn 是n个独立同分布的随机变量 y1,y2,…,yn 是n个独立同分布的随机变量 W=X+Y 给定FY和W,估计FX 安全多方计算 Motivation: 分布式隐私保护数据挖掘 目标: 结果公布 每个用户只知道自己的数据 比较 数据隐藏 安全多方计算 复杂性 一般 高 计算、通信 安全性 较高 高 主要问题 安全性和准确性的折衷 效率 适用领域 较广 Web, Corporate 小规模分布式 Corporate 分布式隐私保护数据挖掘的目标 安全性分析 知道自己的数据和最终的结果 不清楚其它用户的数据 避免相互勾结 通信分析 分布式隐私保护数据挖掘方法 Semi-Honest Model Malicious 分类 水平分布型数据(Horizontal Partitioning) 垂直分布型数据(Vertical Partitioning) 水平型分布数据 垂直分布型数据 * * Na parousiasoume ti kanei kai meta ta differences 用户对话识别(续) 方法 说明 隐私性保护 优点 缺点 IP地址/代理服务器 假定每个独立IP地址/代理服务器组是独立用户 低 通常可用,无需附加技术。 无法保证唯一性,在随机或者轮换IP情况下失效 嵌入式对话ID 通过动态形成页面将ID加入每个链接 低/中等 通常可用,不需依赖于IP地址 无法了解重复访问,需要完全动态站点。 注册 用户确切地登陆站点 中等 可以跟踪单个用户,而不仅仅是浏览器 不是全部用户都愿意注册 Cookie 在客户端机器上保留标识符 中等/高 可以跟踪重复访问 能被禁止。不为大众接收 软件代理服务器 程序载入浏览器从而将日志数据

文档评论(0)

叮当文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档