人工智能原理及MATLAB实现 课件 第6章 数据挖掘.pptx

人工智能原理及MATLAB实现 课件 第6章 数据挖掘.pptx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第六章数据挖掘

第六章数据挖掘§6.1数据挖掘概述大数据在给人们带来方便的同时也带来了一大堆问题:信息冗余;信息真伪难辨,给信息的正确应用带来困难。。为了满足人们数据分析工具的需求,20世纪80年代后期高级数据分析—基于数据库的知识发现(KnowledgeDiscoveryinDatabase,KDD)及相应的数据挖掘(DataMining,DM)理论和技术应运而生。

第六章数据挖掘数据挖掘:技术层面:探查和分析大量数据以发现有意义的模式和规则的过程。商业层面:一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中抽取辅助商业决策的关键性数据。分类标准:1.根据数据库类型分类2.根据数据挖掘对象分类3.根据数据挖掘任务分类4.根据数据挖掘技术分类5.根据数据挖掘方法分类

第六章数据挖掘§6.1数据挖掘概述6.1.2数据挖掘的分类、过程与任务6.1.2.1数据挖掘的分类数据挖掘是一个交叉性的学科领域,涉及统计学原理、模式识别技术、可视化理论和技术等。由于所用的数据挖掘方法的不同,所挖掘的数据类型与知识类型的不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据控制系统。数据挖掘可根据数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等方面进行分类。

第六章数据挖掘§6.1数据挖掘概述6.1.2数据挖掘的分类、过程与任务6.1.2.2数据挖掘的过程图6.1为数据挖掘的基本过程。但由于数据挖掘的复杂性,实施过程往往需要重复以上的某些过程,而且各过程之间都有直接或间接的关系,不能将它们截然划分。例如数据预处理及变换就包含了线索关系的挖掘。

第六章数据挖掘§6.1数据挖掘概述6.1.2数据挖掘的分类、过程与任务6.1.2.3数据挖掘的任务数据挖掘的任务有如下7类。1.概念描述2.关联分析3.时间序列分析4.分类分析5.聚类分析6.离群点检测7.预测

第六章数据挖掘§6.1数据挖掘概述6.1.3数据挖掘建模一个成功的数据挖掘并不是对数据的简单运用,而是要在大量数据中不仅发现潜在的模式,而且必须能对这些模式做出反应,对它们进行处理,将数据转化为信息,将信息转化为行动,最终将行动转化为价值。所以为了成功运用数据挖掘,对数据挖掘技术层次的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。

第六章数据挖掘§6.2数据挖掘算法统计分析方法:1.随机误差的判断(1)χ2检验。(2)F检验。2.系统误差的检验(1)平均值与给定值比较。(2)两个平均值的比较。(3)成对数据的比较。回归分析:1.一元线性回归分析2.多元线性回归分析3.非线性回归分析二项逻辑(logistic)回归当被解释变量为0/1二值品质型变量时,称为二项逻辑回归。二项逻辑回归虽然不能直接采有用一般线性多元回归模型拟合,但仍然可以充分利用线性回归模型建立的理论和思路来拟合。

第六章数据挖掘§6.3数据挖掘相关技术关联规则的种类(1)基于规则中处理的变量的类型,关联规则可以分为布尔型和数值型。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)基于规则中到的数据的维数,关联规则可以分为单维的和多维的。关联分析:主要研究数据中不同领域之间的关系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系。即相关性、关联关系,因果关系。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。

第六章数据挖掘§6.3数据挖掘相关技术6.3.2粗糙集技术在自然界中,大部分事物所呈现的信息都是不完整和模糊的。对于这些信息,经典逻辑由于无法准确地描述,所以也就不能正确的处理。长期以来许多逻辑学家和哲学家都致力于研究模糊概念。但在现实世界中,并不能简单地用好坏、真假等确切的概念表示许多含糊现象,特别是在于集合的边界上,也即存在一些个体,既不能说它属于某个子集,也不能说它不属于该子集。20世纪80年代提出了粗糙集(RoughSet)理论。粗糙集用上、下近似两个集合来逼近任意一个集合,该集合的边界区域被定义为上近似集和下近似集的差,边界区域就是那些无法归属的个体。上、下二近似集合可以通过等价关系给出确定的描述,边界域的元素数目可以被计算出来。

第六章数据挖掘§6.3数据挖掘相关技术6.3.3可视化技术可视化技术也称数据可视化,它旨在凭借计算机的强大信息处理能力以及计算机图形学基本算法及可视化算法将计算机进行的大规模科学(工程)计算结果及其产生的数字数据转换成静态或动态图像的过程,并允许人们通过交互手段控制数据的抽取和画面显示。它具有以下的特点:①交互性。用户可以方便地以交互的方式管理和开发数据;②多维性。可以表示对象或事件的数据的多个属性或变量;③可视性。数据可以用图像、曲线、二维图形、三维图形

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档