第七章数据挖掘及其安全问题选读.ppt

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 数据挖掘及其安全问题 本 章 概 要 7.1 数据挖掘技术 7.2 数据挖掘与国家安全 7.3 数据挖掘与数字安全 7.4 敏感数据的有限泄漏 7.5 关联规则的隐藏 7.1数据挖掘技术 7.1.1数据挖掘技术的产生 20世纪80年代以来,数据库系统在各行各业得到广泛应用,全球的信息量每隔20月就要增加一倍,一个中等规模的企业每天要产生100MB以上的业务数据。面对海量数据库和大量繁杂信息,如何才能从中提取有价值的知识,进一步提高信息的利用率,由此引发了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database)及相应的数据挖掘(Data Mining)理论和技术的研究。 “啤酒与尿布”的故事是最经典的营销案例之一,主要讲述美国著名零售商沃尔玛利用网络信息技术,建立了顾客关系管理系统。 数据挖掘的应用 对于零售业中的数据挖掘,销售人员通过数据挖掘建立预测模型,了解哪些人最有可能对销售业务中的直接信函做出响应,由此将直接信函送给正确的客户,从而减少了开支,并增加了销售额。 对于保险业中的数据挖掘,销售人员通过数据挖掘可以识别哪些赔偿要求最有可能具有欺诈性,从而减少保险业中欺诈案件的发生数量。 对于金融市场中的数据挖掘,客户关系管理中开办银行卡业务是掌握大量客户信息的重要途径。数据挖掘与CRM相结合,定位最大贡献度的信用卡客户刺激持卡人用卡消费。 7.1.2 数据挖掘的定义 数据挖掘(Data Mining,DM):就是从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式的过程。 数据挖掘分为两大类:描述型挖掘和预测型挖掘。 描述型挖掘:是对现有数据的进一步精炼和归纳,从中抽取中更宏观的反映数据特征的概念描述。 预测型挖掘:就是建立的挖掘模型具备预测能力 数据挖掘系统结构 数据挖掘系统的组成 数据库,数据仓库或其他信息库:可以在数据上进行数据清理和集成。 数据库或数据仓库服务器:根据用户的挖掘请求,数据库或数据仓库服务器负责提取相关数据。 知识库:是领域知识,用于指导有哪些信誉好的足球投注网站或评估结果模式的兴趣度。 数据挖掘引擎:数据挖掘系统的基本部分:由一些功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。 模式评估模块:使用兴趣度量,并与数据挖掘模块交互,以便将有哪些信誉好的足球投注网站聚焦在有趣的模式上,可能使用兴趣度阈值过滤发现的模式。 图形用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息,帮助有哪些信誉好的足球投注网站聚焦,根据挖掘的中间结果进行探索式数据挖掘。 数据挖掘任务:包括分类或预测知识模型发现,数据总结,数据聚类,关联规则发现,时序模式发现,依赖关系或依赖模型发现,异常和趋势发现等。 数据挖掘对象:包括关系数据库,面向对象数据库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,数据仓库,和Web数据库等。 数据挖掘方法:包括统计方法,机器学习方法,神经网络方法和数据库方法。 7.1.3 数据挖掘的过程 数据挖掘过程主要包括四个步骤, 即数据选择、数据预处理、模式发现和解释评估。其中,模式发现是数据挖掘的关键步骤。 步骤1:数据选择。 提出挖掘目标,即根据限定的主题,来选择相关的数据。 步骤2:数据预处理。 经过预处理来提高数据质量。数据预处理技术主要包括数据清洗、数据集成、数据变换和数据归约。 步骤3:模式发现. 蕴含在数据中的规律、规则或特片(即知识),表现在数据的某种模式上,发现数据模式关键是人机交互地选择算法,这一步是数据挖掘中的核心内容。 步骤4:解释评估. 从挖掘出的模式中得到有趣的模式,即对用户有用的模式,即对挖掘出的模式进行解释评估。 步骤2:数据预处理 数据预处理的主要任务 数据清理 填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性 数据集成 多个数据库、Data Cube和文件系统的集成 数据转换 规范化、聚集等 数据归约 在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减 数据离散化 对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数. 一、数据清理 1、数据记录中的空缺值 忽略整个元组 手工填入空缺的值 枯燥、费时,可操作性差,不推荐使用 使用一个全局的常量填充空缺数值 给定一个固定的属性值代表:Unknown 、 Null等 简单,但是没有意义 使用属性的平均值填充空缺数值 简单方便、挖掘结果容易产生不精确的结果 使用与

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档