- 1、本文档共83页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(2)直方图分析 像分箱一样,直方图分析也是一种非监督离散化技术。直方图将一个属性的值划分成不相交的区间,称作桶。 例如,在等宽直方图中,将值分成相等的划分或区间,在等深直方图中,值被划分成其中每一部分包含相同个数的样本。每个桶有一个标记,用它替代落在该桶中的属性值,从而达到属性值离散化的目的。 (3)聚类分析 聚类分析是一种流行的数据离散化方法。通过聚类算法将属性的值划分成簇或组,每个簇或组有一个标记,用它替代该簇或组中的属性值。 2. 分类数据的概念分层方法 (1)离散属性概念分层的自动生成算法 对于离散属性,如果概念分层的任何层次上的结点(或属性值)个数少于它低的每一层上的结点数,可以利用以下算法自动生成隐含在该属性上的概念分层。 输入:离散属性集S={A1,A2,…,Am}和对应的数据集R。 输出:概念分层B1,B2,…,Bm。 方法:方法描述如下。 k=1,T=S; 从T中找一个属性Bk,它在R中不同值的个数是T的所有属性中最少的; while (km) { T=T-{Bk} minnum=∞; for (T中每个属性Ai) { 计算R中属性序列B1、B2、…,Bk在属性Ai上不同元组个数mynum; if (mynumminnum) { minnum=mynum; Bk+1=Ai; } } k=k+1 } 中国 华东 上海 中国 华北 河北 中国 华东 浙江 中国 华北 内蒙古 中国 华东 江西 中国 华北 北京 中国 华东 江苏 中国 东北 辽宁 中国 华北 山东 中国 东北 吉林 中国 华北 天津 中国 东北 黑龙江 其他 国家 地区 省 其他 国家 地区 省 (2)连续属性概念分层的生成 连续属性在数据离散化过程会自动构造相应的概念分层,采用方法与前面介绍的离散化技术相似,这里不再介绍。 4.3.7 数据挖掘的算法 1. 数据挖掘算法的基本特征 数据挖掘算法着重强调两个基本特征:有效性和可伸缩性。 一个有效的数据挖掘算法是指满足挖掘任务的要求,获得用户满意的知识。 一个数据挖掘算法具有良好的可伸缩性是指对小数据集和大规模数据有同样的效果,也就是说,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据的规模近似线性地增加。 2. 数据挖掘算法的分类 (1)基于学习方式的分类 有导师学习(监督学习):输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数。 无导师学习(非监督学习):输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。 强化学习(增强学习):以环境反馈(奖/惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法 (2)基于数据形式的分类 结构化学习:以结构化数据为输入,以数值计算或符号推演为方法。典型的结构化学习有神经网络学习、统计学习、决策树学习、规则学习。 非结构化学习:以非结构化数据为输入,典型的非结构化学习有类比学习、案例学习、解释学习、文本挖掘、图像挖掘、Web挖掘等。 (3)基于学习目标的分类 概念学习:即学习的目标和结果为概念,或者说是为了获得概念的一种学习。典型的概念学习有示例学习。 规则学习:即学习的目标和结果为规则,或者说是为了获得规则的一种学习。典型的规则学习有决策树学习。 函数学习:即学习的目标和结果为规则,或者说是为了获得函数的一种学习。典型的函数学习有神经网络学习。 类别学习:即学习的目标和结果为对象类,或者说是为了获得类别的一种学习。典型的类别学习有聚类分析。 贝叶斯网络学习:即学习的目标和结果是贝叶斯网络,或者说是为了获得贝叶斯网络的一种学习。其又可分为结构学习和参数学习。 3. 算法应用 为特定的任务选择正确的算法是十分重要的。以SQL Server为例,它提供了以下各类数据挖掘算法: 分类算法:基于数据集中的其他属性预测一个或多个离散变量。 回归算法:基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。 分割算法:将数据划分为组或分类,这些组或分类的项具有相似属性。 关联算法:查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。 顺序分析算法:汇总数据中的常见顺序或事件,如Web路径流。 1. 数据预处理 数据预处理主要包括数据清理、数据集成、数据变换和数据归约等,通过数据预处理,使数据转换为可以直接应用数据挖掘工具进行挖掘的高质量数据。 2
您可能关注的文档
- 第3章:土石方工程.ppt
- 第3节 简单级数反应的动力学规律.ppt
- 第3章 茶艺.ppt
- 第3讲 微积分实验.ppt
- 第3讲:精馏简捷计算.ppt
- 第3章细胞形态结构.ppt
- 第3章_外汇、汇率与外汇市场.ppt
- 第3课《希腊罗马的上古文明》课件.ppt
- 第4章 (弹力)平面问题的极坐标解答13.ppt
- 第3章第3节地理信息系统的应用.ppt
- 2024学年第一学期浙江省精诚联盟10月联考高二物理试题含答案及解析.pdf
- 【山东卷】山东省泰安市2024-2025学年高三上学期11月期中考试(11.13-11.15)英语试卷含答案及解析.pdf
- 【浙江卷】浙江省杭州市四校联考2024-2025学年高一上学期10月月考英语试卷含答案及解析.pdf
- 西南大学附中高一10月月考生物试卷含答案及解析.pdf
- 辽宁省县域重点高中协作体2024~2025学年高一上学期10月质量监测试题历史试卷含答案及解析.pdf
- 基于多功能超疏水材料的海水淡化及油水分离研究.pdf
- FKBP5基因多态性与抚养方式对孤儿静息态脑功能的影响.pdf
- 《因明入正理论略抄及后疏》的研习与创作感受.pdf
- HIF-1α、SGK1在子宫内膜增生及子宫内膜癌孕激素抵抗中的表达和意义.pdf
- 初中信息科技大单元教学设计框架构建及应用研究--以《人工智能》大单元为例.pdf
文档评论(0)