第二章 数据挖掘.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 数据挖掘理论概述 2.1 数据挖掘的定义和分类 目前,对数据挖掘(data mining)有广义的和狭义的两种理解。广义的理解认为数据挖掘即数据库中的知识发现(Knowledge Discovery in Database,KDD)。即从大规模的数据库中抽取非平凡的、隐含的、未知的、有潜在使用价值的信息的过程。狭义的理解认为数据挖掘是KDD的一个步骤。KDD为从数据中识别正确的、新颖的、有潜在使用价值的、最终可理解的模式的非平凡的过程。它包括数据选取、数据预处理和数据清洗、数据挖掘、知识评估等多个步骤。数据挖掘是其中对经过预处理的数据进行处理,抽取知识的过程。 数据挖掘不一定需要建立在数据仓库的基础上,但是如果将数据挖掘和数据仓库协同工作,则可以简化数据挖掘过程的某些步骤,从而大大提高数据挖掘的工作效率。由于数据仓库的数据来源于整个企业,保证了数据挖掘中数据来源的广泛性和完整性。数据挖掘技术是数据仓库应用中比较重要且相对独立的部分。目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。此外,数据挖掘技术还会同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。 Jiawei Han在《Data Mining: Concept Techniques》[21]中将目前的数据挖掘技术主要分为以下几类:概念描述、关联分析、分类和预测、聚类分析、例外分析、趋势分析。 概念描述 (特性描述和区分) 数据可以由一定的概念和类来抽象表示人们对其关心的那部分的性质。简单明了地描述这些概念和类显然是非常有用的。关于这些概念的描述称为概念描述(concept description),它包括了特性描述和区分。 关联分析 关联分析(association analysis)是在一个给定的数据集中发现经常同时发生的多个属性值条件(一般称为关联规则)的过程,常用于市场销售和事物数据分析。但目前,其应用范围也日益拓展。 分类和预测 分类(classification)是指为了能够使用模型预测类标签(class label)还未知的对象所属的类,而寻找可以描述和区分类或概念的模型的过程,其中类标签指用来区分类的属性。包括两个步骤:通过分析训练数据空间中的数据,运用分类算法,建立分类模型;用测试数据空间中的数据估计己建立模型的预测准确性,如果用户可以接受,则用该模型对未知类别的数据进行分类预测。所谓预侧(prediction),专指对丢失或无效的数据的值的预测。 聚类分析 聚类分析(clustering analysis)是一个将指定数据集中的数据进行归类的过程。其遵循的原则是每个类内部各对象间的相似性尽可能最大,而不同类对象间的相似性尽可能最小。在具体实现中,一般用计算对象属性的距离(欧几里德距离、曼哈顿距离等)来体现对象间的相似度。 例外分析 一个数据库中的数据可能不都遵循总的数据模型的行为,这些数据称为例外(outlier)。通常数据挖掘方法把例外作为垃圾而抛弃,不过在一些场合下,比如欺诈检测中,例外却成为了最受关注的焦点。例外分析大致有统计、基于距离、基于偏差三种方法。 趋势分析 数据趋势分析(evolutiona nalysis)描述对象行为随时间变化的趋向和规律。这个概念和特性描述、关联分析、分类、与时间相关的数据的聚类都有些类似,然而前者更强调对时序(time-series)数据的分析、有序和周期性模式的匹配、基于相似度的数据分析。 2.2 数据挖掘的目的 数据挖掘用于辨认大量数据中所反映的有价值信息。数据挖掘从机器学习的途径获取信息,使它能使用在决策支持、预测、估计等领域中。数据通常是庞大而信息含量很低,在它未经加工时只有很小的直接使用价值。有用的信息往往是隐藏在数据背后的。数据挖掘就是从杂乱无章的数据中找出规律,把数据转化为信息的一个过程。 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。对企业来说,数据挖掘就是在“数据矿山”中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回手及。 数据挖掘不是数据分析。数据分析一般面对的数据量较小;人们对数据分析所得出的结论有着较为成熟、全面的预期;其过程常常受到人为因素强烈的影响。数据挖掘一般面对的都是“海量”数据,因此其对算法的效率要比分析类高出很多;数据挖掘所得出的大多是隐性的信息,这些信息通常人力是很难发现的;数据挖掘某些过程也要受到人为因素的影响,但大多数时候,数据挖掘是较为客观的,它是一种机器性的学习结果,与人为因素关系不大。 数据挖掘只是帮助商业人士更深入、更容易的分析数据。它无法告诉你客户流失模型对你的企业的实际

文档评论(0)

2232文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档