- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
连续特征离散化方法综述.pdf
专题7知识管理与技术创新 1091
连续特征离散化方法综述
汪庆,张巍,刘鹏
上海财经大学信息管理与工程学院,上海200439
wq__811@yahoo.com.crl
摘要:离散特征在数据挖掘的过程中具有重要的作用,如何将实际数据集中的连续特征最好地离散化是一个NP—hard
问题。本文介绍了离散化方法的不同角度的分类、离散化过程中用到的术语及一般离散化的过程。同时,还按照离散化方法
有监督和无监督的分类方法体系,介绍了几种有代表性的离散化方法。提出需根据学习环境选择合适的离散化方法,将关联
分析中连续特征离散化作为以后的研究方向。
关键词:连续特征;离散特征;离散化
1 引 言
数据集的特征按照其取值可以分为连续特征和离
散特征。连续特征也称为定量特征,通常用间隔尺度
和比例尺度来衡量,有较多甚至无穷的数值表达,其
值取自某个连续的区间,表示了对象的某种可测性
质,例如人的身高、年龄,商品的价格、空气温度、物体
长度等等。离散特征也称定性特征,一般以名义尺度
或有序尺度定义,是指以文本型数据表达的对象特征,
如人的性别、学历特征,商品的用途(食品、服装)等,
此类特征的值域只限定于较少的取值[1][2。。连续特征
的取值允许被排序,可进行算术运算;离散特征的取值
有时允许被排序,但是其不能进行算术运算[33。
在机器学习和数据挖掘中,已经发展了处理离放
型数据的很多算法,如决策树、关联规则及基于粗糙集
理论的许多方法,而这些算法对于连续型数据却不适
用;而有些算法即使能处理连续型数据,挖掘和学习也
没有处理离散型数据有用和有效。但是在实际数据库
中,往往不只存在着离散型数据,也存在着大量连续型
数据。这样就有必要将连续特征离散化,使得特征可
以适用于各种算法。特征的离散化处理就是把连续特
征转化为离散特征,它足数据预处理的一个重要过程,
直接关系到挖掘和学习的效果口][4f。
将连续特征离散化,再将离散化的结果应用于算
法有很多好处。(1)离散化结果将会减少给定连续特
征值的个数,减小系统对存储空间的实际需求。(2)离
散特征相对于连续特征来说更接近于知识层面的表
示。(3)通过离散化,数据被规约和简化,对于使用者
和专家来说,离散化的数据都更易于理解、使用和解
释。(4)离散化处理使得算法的学习更为准确和迅
速¨o。(5)一系列算法只能应用于离散型数据,使得离
散化处理成为必要,而离散化又使很多算法的应用范
围扩展了[4][6][7|。但最优离散化问题已经被证明是一
个NP-hard问题。
离散化的方法有很多,本文接下来第2节介绍了
离散化方法的分类体系、术语及离散化过程,第3节选
取了目前比较有代表性的几种离散化方法进行了详细
介绍以及一些改进的离散化方法,第4节提出了要根
据学习环境和用户需要选择合适的离散化方法,并以
关联分析中的离散化为例,指出在关联分析中离散化
方法选择需要注意的问题,最后是全文的结束语,并将
关联分析中的连续特征离散化作为以后的研究方向。
2现状及离散化过程
2.1分类
离散化方法依据不同的需求沿着不同的主线发展
至今,目前已存在很多不同离散化方法的分类体系。
不同的分类体系强调离散化方法问的区别的不同方
面[3]。主要的分类体系有有监督的和尤监督的、动态
的和静态的、全局的和局部的、分裂式的(从上至下)和
合并式的(从下至上)、单变量的和多变量的以及直接
的和增量式的。
根据离散化方法是否使用数据集的类信息,离散
化方法可以分为有监督的和无监督的。有监督的离散
化方法使用类信息,而无监督的离散化方法不使用类
信息。有监督的离散化方法又分为建立在错误率基础
上的、建立在熵值基础上的和建立在统计信息基础上
的[3][5]【8=]。早期的等宽、等频的离散化方法是无监督
方法的典型代表,连续的区间根据使用者给定的宽度
或频数划分成小的区间。元监督的方法的缺陷在于它
对分布不均匀的数据不适用,对异常点比较敏感]。为
了克服无监督的离散化方法的这些缺陷,使用类信息来
进行离散化的有监督的离散化方法逐渐发展起来。
离散化方法也常以动态或静态的分类方法来区
1092 2008中国发展进程中的管理科学与工程(卷II)
分。动态的离散化方法就是在建立分类模型的同时对
连续特征进行离散化,如有名的CA.5[10]。静态的离散
化方法就是在进行分类之前完成离散化处理。在
Doughertyet a1.[5]文中有动态和静态离散化方法的详
细对比。
根据离散化过程是否是针对整个训练数据空间
的,离散化方法又可分为全局的和局部的。全局的离
散化方法使用所有的实例,而局部的离散化方法只是
用一部分的实例。
离散化方法还可分为从上至下的和从下至上的,
也可称为分裂式的和合并式的。分裂的离散化方法起
始的分裂点列表是空的,
您可能关注的文档
最近下载
- 2021-2024年数学竞赛AIME II真题含答案(共4套).pdf
- 变电站值班员试题库(职业鉴定:初、中、高级工).pdf VIP
- 洁净制药厂净化空调毕业的设计.doc
- 高一上学期期末数学试卷(基础篇)(解析版).docx
- 虚拟实验室在高中化学教育中的应用研究教学研究课题报告.docx
- 《教育强国建设规划纲要(2024—2035年)》解读与培训.pptx
- 作业9:工学一体化课程《小型网络安装与调试》任务4学习任务工作页 .docx VIP
- 人教版六年级下册语文必背内容(古诗、课文、日积月累).pdf VIP
- 员工考勤表表格电子版.docx VIP
- 中国电信新一代bss3 0_计费技术要求分册v1 0.pdf
文档评论(0)