《外文翻译--中文.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
知识发现与数据挖掘 从数据库中发现知识(KDD)是2080年代末开始。KDD一词是在1989年8月与美国底特律市召开的第一届KDD国际学术会议上正式形成的。KDD研究的问题有:定性知识和定量知识的发现;知识发现方法;知识发现的应用等。数据挖掘是知识发现中的核心工作,主要研究发现知识的各种方法和技术。 知识发现(KDD)被认为是从数据中发现有知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式。KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。其中数据集是事实F(数据库记录)的集合;模式是用语言L表示的表达式E,它所描述的数据是集合F的一个子集,它比枚举所有中元素更简单,称E为模式;有效、新颖、潜在有用、可被理解表示发现的模式有一定的可信度,应该是新的,将来有实用价值,能被用户理解。 KDD过程下图所示。 KDD过程可以概括为三部分:数据准备、数据挖掘、及结果的解释和评估。 1.数据准备 数据准备又可以分为3个子步骤:数据选取、数据预处理和数据变换。 数据选取的目的是确定发现任务的操作对象,即目标数据,是根据用户的需要从原始数据库中抽取的一组数据。 数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续数值转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续型数据,以便于神经网络计算)等。 数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。 2.数据挖掘 数据挖掘阶段首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决定使用什么样的挖掘算法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识(采用规则表示的挖掘方法显然要好于神经网络之类的方法),而有的用户值是希望获取预测准确度尽可能高的预测型知识。选择了挖掘算法后,就可以实施数据挖掘操作,获取有用的模式。 3.结果的解释和评估 数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户的要求,这时则需要回退到发现过程的前面阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种挖掘算法等。另外,KDD由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“if…then…”规则。 数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性,二是用于挖掘的数据质量和数量(数据量的大小)。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘的结果是不会好的。 整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数据不太好,或使用的挖掘技术产生不了期望的结果。这时,用户需要重复先前的过程,甚至从头重新开始。 可视化技术在数据挖掘的各个阶段都发挥着重要的作用。特别是在数据准备阶段,用户可能要使用散点图、直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解,从而为更好地选取数据打下基础。在挖掘阶段,用户则要使用与领域问题有关的可视化工具。在表示结果阶段,则可能要用到可视化技术以使得发现的知识更易于理解。 KDD是在机器学习、计算可视化、模式识别、统计学等多个学科的基础上发展起来的一门新兴的交叉学科。KDD与这些领域的技术密切相关,但又有一定的区别。下面简要讨论KDD与这些技术的比较。 1. KDD与机器学习 知识发现和机器学习都是从数据中提取知识的过程,但二者是有区别的。机器学习方法是计算机学和人工智能的产物,是采用人工智能技术来实现机器从客观世界中学习,而KDD是在没有明确假设的前提下去挖掘信息、发现知识,发现所有得到的知识具有潜在性、有效性和实用性三个特征;KDD是面向大规模数据库的,且数据来源是现实世界中存在的真实数据,存在一定的缺失和噪音数据,而机器学习一般面向的是几百到几千条记录的数据,数据大多是经过专家挑选的,没有或较少出现缺失数据。 2. KDD与数据库技术 首先,KDD与目前数据库管理系统DBMS的作用是不同的。数据库管理系统的侧重点是把大量的数据组织起来。以方便用户进行存取和维护,并对数据的一致性和完整性进行约束。而KDD则侧重于对数据库中的数据进行分析,已得到有用的结果。再次,数据库中的数据库报表工具与KDD也是不同的,前者按用户提取数据库中的数据,进行简单的数据运算和处理,并以特定的方式提交给用户,而后者是要发现隐藏在数据背

文档评论(0)

jizi6339 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档