第七章数据挖掘及其安全问题选读.ppt

下载文档 降价啦

1
0
约7.75千字
约 73页
2017-02-28 发布于湖北
举报
版权申诉
保障服务

第七章数据挖掘及其安全问题选读.ppt

1、本文档共73页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第七章数据挖掘及其安全问题本章概要 7.1 数据挖掘技术 7.2 数据挖掘与国家安全 7.3 数据挖掘与数字安全 7.4 敏感数据的有限泄漏 7.5 关联规则的隐藏 7.1数据挖掘技术 7.1.1数据挖掘技术的产生 20世纪80年代以来，数据库系统在各行各业得到广泛应用，全球的信息量每隔20月就要增加一倍，一个中等规模的企业每天要产生100MB以上的业务数据。面对海量数据库和大量繁杂信息，如何才能从中提取有价值的知识，进一步提高信息的利用率，由此引发了一个新的研究方向：基于数据库的知识发现（Knowledge Discovery in Database）及相应的数据挖掘（Data Mining）理论和技术的研究。 “啤酒与尿布”的故事是最经典的营销案例之一，主要讲述美国著名零售商沃尔玛利用网络信息技术，建立了顾客关系管理系统。数据挖掘的应用对于零售业中的数据挖掘，销售人员通过数据挖掘建立预测模型，了解哪些人最有可能对销售业务中的直接信函做出响应，由此将直接信函送给正确的客户，从而减少了开支，并增加了销售额。对于保险业中的数据挖掘，销售人员通过数据挖掘可以识别哪些赔偿要求最有可能具有欺诈性，从而减少保险业中欺诈案件的发生数量。对于金融市场中的数据挖掘，客户关系管理中开办银行卡业务是掌握大量客户信息的重要途径。数据挖掘与CRM相结合，定位最大贡献度的信用卡客户刺激持卡人用卡消费。 7.1.2 数据挖掘的定义数据挖掘（Data Mining，DM）:就是从大型数据库中抽取有意义的（非平凡的，隐含的，以前未知的并且是有潜在价值的）信息或模式的过程。数据挖掘分为两大类：描述型挖掘和预测型挖掘。描述型挖掘：是对现有数据的进一步精炼和归纳，从中抽取中更宏观的反映数据特征的概念描述。预测型挖掘：就是建立的挖掘模型具备预测能力数据挖掘系统结构数据挖掘系统的组成数据库，数据仓库或其他信息库：可以在数据上进行数据清理和集成。数据库或数据仓库服务器：根据用户的挖掘请求，数据库或数据仓库服务器负责提取相关数据。知识库：是领域知识，用于指导有哪些信誉好的足球投注网站或评估结果模式的兴趣度。数据挖掘引擎：数据挖掘系统的基本部分：由一些功能模块组成，用于特征化、关联、分类、聚类分析以及演变和偏差分析。模式评估模块：使用兴趣度量，并与数据挖掘模块交互，以便将有哪些信誉好的足球投注网站聚焦在有趣的模式上，可能使用兴趣度阈值过滤发现的模式。图形用户界面：该模块在用户和数据挖掘系统之间通信，允许用户与系统交互，指定数据挖掘查询或任务，提供信息，帮助有哪些信誉好的足球投注网站聚焦，根据挖掘的中间结果进行探索式数据挖掘。数据挖掘任务：包括分类或预测知识模型发现，数据总结，数据聚类，关联规则发现，时序模式发现，依赖关系或依赖模型发现，异常和趋势发现等。数据挖掘对象：包括关系数据库，面向对象数据库，空间数据库，时态数据库，文本数据库，多媒体数据库，异构数据库，数据仓库，和Web数据库等。数据挖掘方法：包括统计方法，机器学习方法，神经网络方法和数据库方法。 7.1.3 数据挖掘的过程数据挖掘过程主要包括四个步骤，即数据选择、数据预处理、模式发现和解释评估。其中，模式发现是数据挖掘的关键步骤。步骤1：数据选择。提出挖掘目标，即根据限定的主题，来选择相关的数据。步骤2：数据预处理。经过预处理来提高数据质量。数据预处理技术主要包括数据清洗、数据集成、数据变换和数据归约。步骤3：模式发现．蕴含在数据中的规律、规则或特片（即知识），表现在数据的某种模式上，发现数据模式关键是人机交互地选择算法，这一步是数据挖掘中的核心内容。步骤4：解释评估．从挖掘出的模式中得到有趣的模式，即对用户有用的模式，即对挖掘出的模式进行解释评估。步骤2：数据预处理数据预处理的主要任务数据清理填入缺失数据平滑噪音数据确认和去除孤立点解决不一致性数据集成多个数据库、Data Cube和文件系统的集成数据转换规范化、聚集等数据归约在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减数据离散化对于一个特定的连续属性，尤其是连续的数字属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的个数. 一、数据清理 1、数据记录中的空缺值忽略整个元组手工填入空缺的值枯燥、费时，可操作性差，不推荐使用使用一个全局的常量填充空缺数值给定一个固定的属性值代表：Unknown 、 Null等简单，但是没有意义使用属性的平均值填充空缺数值简单方便、挖掘结果容易产生不精确的结果使用与