第4章 数据挖掘概述.ppt

  1. 1、本文档共83页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(2)直方图分析   像分箱一样,直方图分析也是一种非监督离散化技术。直方图将一个属性的值划分成不相交的区间,称作桶。   例如,在等宽直方图中,将值分成相等的划分或区间,在等深直方图中,值被划分成其中每一部分包含相同个数的样本。每个桶有一个标记,用它替代落在该桶中的属性值,从而达到属性值离散化的目的。 (3)聚类分析   聚类分析是一种流行的数据离散化方法。通过聚类算法将属性的值划分成簇或组,每个簇或组有一个标记,用它替代该簇或组中的属性值。 2. 分类数据的概念分层方法 (1)离散属性概念分层的自动生成算法   对于离散属性,如果概念分层的任何层次上的结点(或属性值)个数少于它低的每一层上的结点数,可以利用以下算法自动生成隐含在该属性上的概念分层。 输入:离散属性集S={A1,A2,…,Am}和对应的数据集R。 输出:概念分层B1,B2,…,Bm。 方法:方法描述如下。 k=1,T=S; 从T中找一个属性Bk,它在R中不同值的个数是T的所有属性中最少的; while (km) { T=T-{Bk} minnum=∞; for (T中每个属性Ai) { 计算R中属性序列B1、B2、…,Bk在属性Ai上不同元组个数mynum; if (mynumminnum) { minnum=mynum; Bk+1=Ai; } } k=k+1 } 中国 华东 上海 中国 华北 河北 中国 华东 浙江 中国 华北 内蒙古 中国 华东 江西 中国 华北 北京 中国 华东 江苏 中国 东北 辽宁 中国 华北 山东 中国 东北 吉林 中国 华北 天津 中国 东北 黑龙江 其他 国家 地区 省 其他 国家 地区 省 (2)连续属性概念分层的生成   连续属性在数据离散化过程会自动构造相应的概念分层,采用方法与前面介绍的离散化技术相似,这里不再介绍。 4.3.7 数据挖掘的算法 1. 数据挖掘算法的基本特征   数据挖掘算法着重强调两个基本特征:有效性和可伸缩性。   一个有效的数据挖掘算法是指满足挖掘任务的要求,获得用户满意的知识。   一个数据挖掘算法具有良好的可伸缩性是指对小数据集和大规模数据有同样的效果,也就是说,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据的规模近似线性地增加。 2. 数据挖掘算法的分类 (1)基于学习方式的分类 有导师学习(监督学习):输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数。 无导师学习(非监督学习):输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。 强化学习(增强学习):以环境反馈(奖/惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法 (2)基于数据形式的分类 结构化学习:以结构化数据为输入,以数值计算或符号推演为方法。典型的结构化学习有神经网络学习、统计学习、决策树学习、规则学习。 非结构化学习:以非结构化数据为输入,典型的非结构化学习有类比学习、案例学习、解释学习、文本挖掘、图像挖掘、Web挖掘等。 (3)基于学习目标的分类 概念学习:即学习的目标和结果为概念,或者说是为了获得概念的一种学习。典型的概念学习有示例学习。 规则学习:即学习的目标和结果为规则,或者说是为了获得规则的一种学习。典型的规则学习有决策树学习。 函数学习:即学习的目标和结果为规则,或者说是为了获得函数的一种学习。典型的函数学习有神经网络学习。 类别学习:即学习的目标和结果为对象类,或者说是为了获得类别的一种学习。典型的类别学习有聚类分析。 贝叶斯网络学习:即学习的目标和结果是贝叶斯网络,或者说是为了获得贝叶斯网络的一种学习。其又可分为结构学习和参数学习。 3. 算法应用   为特定的任务选择正确的算法是十分重要的。以SQL Server为例,它提供了以下各类数据挖掘算法: 分类算法:基于数据集中的其他属性预测一个或多个离散变量。 回归算法:基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。 分割算法:将数据划分为组或分类,这些组或分类的项具有相似属性。 关联算法:查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。 顺序分析算法:汇总数据中的常见顺序或事件,如Web路径流。 1. 数据预处理   数据预处理主要包括数据清理、数据集成、数据变换和数据归约等,通过数据预处理,使数据转换为可以直接应用数据挖掘工具进行挖掘的高质量数据。 2

文档评论(0)

文档精品 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档