- 1、本文档共60页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
教材简介名称人工智能原理与应用作者张仰森出版社.ppt
当今时代,人们面临的两大问题: “数据和信息过量,但知识贫乏”的问题。 数据挖掘和知识发现(DMKD)技术应运而生,并成为人工智能近年来研究的热点。 异构网络和异构硬软件环境下的程序跨平台互操作问题 智能Agent与多Agent系统正在崛起为人工智能领域研究分布式计算环境下软件智能化的重要技术。 1. 网络信息时代的问题 信息过量,难以消化; 真假信息难以辨识; 信息安全难以保证; 信息形式的不一致导致难以统一处理。 缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。 2. 解决的办法 数据库知识发现(KDD):1989年第11届国际联合人工智能学 术会议上提出。 用机器学习的方法分析数据库管理系统中存储的数据,发现数据中隐藏的规则与知识。 3. KDD的定义 Fayyad等为KDD下了这样的定义:KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 4. KDD过程与步骤: 数据选择和预处理(称为数据准备) 数据挖掘 发现知识 解释评价 1.数据挖掘的定义 从技术的角度:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 从商业的角度:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 简而言之:数据挖掘其实是一类深层次的数据分析方法。 2.数据挖掘与在线分析处理(OLAP) 数据挖掘与传统的在线分析处理的本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。 在线分析处理(OLAP):建立在一些假设之上的。用户首先建立一系列假设,然后用OLAP检索数据库来验证或推翻所提假设的正确性,最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程,但如果分析的变量达到几十或上百个时,再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。 数据挖掘:不是用于验证某个假设模型的正确性,而是在数据库中自己寻找模型。其本质是一个归纳的过程。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。 数据挖掘和OLAP的互补性:采用数据挖掘技术得出一些信息或知识后,当要把这些信息或知识应用于决策时,也许要验证一下应用这些信息或知识所制定的决策将会给企业带来什么影响,这时或许要用到OLAP工具。 3.数据挖掘的研究内容 研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等 4.数据挖掘的分类 根据挖掘任务分:分类或预测模型知识发现;数据总结、数据聚类、关联规则发现;序列模式发现;依赖关系或依赖模型发现;异常和趋势发现等等。 根据挖掘对象分:关系数据库;面向对象数据库;空间数据库;时态数据库;文本数据源;多媒体数据库;异质数据库;遗产(legacy)数据库;万维网(Web)。 根据挖掘方法分:可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。 根据系统应用分:根据其系统的应用领域分类。如金融、电信、商业预测等。不同的应用领域通常要将一些特别适合该领域的算法进行集成,那些普通的、全能的数据挖掘系统可能并不适合特定领域的挖掘任务。 1.发现与预测 发现功能:数据挖掘就像在“数据山”上寻找挖掘“知识金块”,如果不采用强有力的工具,这些“金块”就很难找到,即使找到也会花费非常高的代价,就像大海捞针。 预测功能:用一个形象的比喻,我们使用数据挖掘,不仅可以在“数据山”中找到目前需要的“金矿”,还可以帮助我们预测新的金矿或银矿在山的什么走向上,以使我们尽快地找到新的金矿,这种能够预测未来走势信息的功能就称为预测。 2.关联规则挖掘 若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的就是找出数据库中隐藏的关联规则或关联网。关联规则可记为A?B,A称为前提或左部(LHS),B称为后续或右部(RHS)。利用数据挖掘的关联分析功能所发现的规则性知识往往带有可信度。 关联规则可信度: 数据关联支持度:该关联在数据库中出现的频率。 相关例子参见教材 3.数据聚类 聚类也可以称为无监督分类(不需要训练集)。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。使得属于同一类别的个体之间的距离尽可能的小而不同类别上的个体间的距离尽可能的大。 与分类不同,在开始聚类之前你不知道要把数据分成几组,也不知道怎么分(依照哪几个变量)。 4.概念/类描述 数据可以与类
您可能关注的文档
- 招聘计划报考资格考试时间考试形式考试科目.ppt
- 拟推荐2016年度省科学技术奖励项目(科技进步)公示表.doc
- 拿破仑关于中国有一句名言,‘中国是头睡狮,就让它永远.ppt
- 持普通护照中国公民前往有关国家和地区入境便利待遇一览表.doc
- 指南背景下社会领域教育质量的提升.ppt
- 指导教授林志鸿教授学号NA2D0005学生王玉玲.ppt
- 指导老师胡凯杰老师学生98353010郑传仁98353014陈.ppt
- 指导老师萧瑞阳博士.ppt
- 按2012年1月5日至6日,2012年直属海事系统工作会议在杭.doc
- 挤塑工艺培训教材.ppt
- 2024年小学教师工作计划模板(八篇) .pdf
- 2024年药学类之药学(师)题库检测试卷B卷附答案 .pdf
- 2024年必威体育精装版仁爱版五年级数学(上册)期中考卷及答案(各版本) .pdf
- 2024年高中生个人职业生涯规划 .pdf
- 2024年法律职业资格之法律职业客观题二题库与答案 .pdf
- 2024年资产评估师之资产评估基础真题练习试卷B卷附答案 .pdf
- 2024年度社工(初级)《社会工作实务(初级)》考试典型题题库及答案.pdf
- 2024年新员工下半年工作计划范文(3篇) .pdf
- 2024年律师委托代理合同标准版本(三篇) .pdf
- 2024年股权抵押借款合同范本(4篇) .pdf
文档评论(0)