- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十三章知识发现 高级人工智能.ppt
高级人工智能 史忠植 高级人工智能 知识发现 知识发现 数据库知识发现 不同的术语名称 知识发现的任务 知识发现的任务 知识发现的方法 知识发现的方法 知识发现的方法 KDD的技术难点 数据仓库 数据仓库的定义 数据仓库的特征 数据仓库的特征 元数据 元数据的重要性 数据仓库的相关概念 数据仓库的建模模型 OLAP OLAP的类型 OLAP的分析操作 数据仓库和知识发现技术的结合(1) 数据仓库和知识发现技术的结合(2) /shizz/ Questions?! 数据挖掘软件的发展 第二代数据挖掘软件 DBMiner 数据挖掘软件的发展 第二代软件 SAS Enterprise Miner 数据挖掘软件的发展 第三代数据挖掘软件 特点 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成 缺陷 不能支持移动环境 数据挖掘软件的发展 第三代软件 SPSS Clementine 以PMML的格式提供与预言模型系统的接口 数据挖掘软件的发展 第四代数据挖掘软件 特点 目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普适计算(ubiquitous)计算设备产生的各种类型的数据 第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和普适计算(Ubiquitous)设备的第四代数据挖掘系统。 * * 第十三章 知识发现(一) 史忠植 中国科学院计算技术所 概述 知识发现的任务 数据仓库 知识发现工具 知识发现是指从数据集中抽取和精炼新的模式。 范围非常广泛:经济、工业、农业、军事、社会 数据的形态多样化:数字、符号、图形、图像、声音 数据组织各不相同:结构化、半结构化和非结构 发现的知识可以表示成各种形式 规则、科学规律、方程或概念网。 目前, 关系型数据库技术成熟、应用广泛。因此, 数据库知识发现(Knowledge Discovery in Databases KDD)的研究非常活跃。 该术语于1989年出现,Fayyad定义为“KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程” 知识发现是一门来自不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。 知识发现:人工智能和机器学习界。 数据挖掘(data mining): 统计界、数据分析、数据库和管理信息系统界 知识抽取 (information extraction)、 信息发现 (information discovery)、 智能数据分析 (intelligent data analysis)、 探索式数据分析 (exploratory data analysis) 信息收获 (information harvesting) 数据考古 (data archeology) 数据总结: 对数据进行总结与概括。传统的最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示。 分类: 根据分类模型对数据集合分类。分类属于有导师学习,一般需要有一个训练样本数据集作为输入。 聚类: 根据数据的不同特征,将其划分为不同的类。无导师学习 相关性分析: 发现特征之间或数据之间的相互依赖关系 关联规则 偏差分析: 基本思想是寻找观察结果与参照量之间的有意义的差别。通过发现异常, 可以引起人们对特殊情况的加倍注意。 建模: 构造描述一种活动或状态的数学模型 统计方法: 传统方法: 回归分析、判别分析、聚类分析、探索性分析 模糊集(fuzzy set) Zadeh 1965 支持向量机(Support Vector Machine) Vapnik 90年代初 粗糙集(Rough Set) Pawlak 80年代初 机器学习: 规则归纳:AQ算法 决策树:ID3、C4.5 范例推理:CBR 遗传算法:GA
文档评论(0)