- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于GMDH模型及模糊聚类的特征提取研究
基于GMDH模型及模糊聚类的特征提取研究 摘要:特征提取算法可以去除目标数据中的冗余特征、无关特征甚至噪声特征,从而得到一个无冗余、无噪声的样本集,有助于提高目标对象的识别率以及数据的挖掘速度。现有的特征提取方法在定性数据及噪声数据的处理上存在局限性,而定性数据及带噪声数据在现实建模过程中是不可避免的。本文从特征提取需解决的根本问题出发,就如何确定特征子集并选择适当的隶属函数来表示模糊子空间,使模糊规则归纳模型有最大的识别率及抗干扰性的方法进行讨论、研究
关键词:特征提取;模糊聚类;隶属函数
中图分类号:O159;TP311 文献编码:A DOI:10.3969/j.issn.1003-8256.2016.06.009
1 引言
自组织模糊规则归纳(Self-Fuzzy Rule Induction Using GMDH,简称FRI)本质上是一种基于GMDH技术的规则归纳法,能自动地从数据中提取模糊规则形成自然语言描述的模糊模型用来描述复杂系统,可以用来提取目标数据中的特征规则。该方法属于非参数GMDH,其执行过程就是应用黑箱方法从数据中自动地建立模糊推理系统(输入输出映射关系的模糊规则的集合),保持了GMDH适于有噪声样本的建模优点。FRI使用黑箱方法分析处理系统输入输出变量之间的关系,运用GMDH技术将每个输入变量(定性或定量)的区间分成重叠的等距离的区间,使用型的隶属函数将原始的分明变量转换成模糊变量,通过GMDH算法,将输入空间分成模糊子空间并确定最优个数的输入变量,运用系统的输入输出数据和选择准则和,自动地提取模糊规则,形成由自然语言描述的IF-THEN模糊模型来描述系统行为,例如,文献[1]利用FRI网络提供的信息直接提取出IF-THEN形式的规则,这种方法分析美国国会选举结果的正确率达到了97%
目前用于高维客户数据规则提取的机器学习分类算法有很多,但通过文献分析发现,Kira和Rendell提出的基于距离的Filter方法提高了计算速度,但其中的距离指标只适用于定量数据[2]; Relief系列算法是公认的分类效果较好的filter式特征提取算法[3],能够处理离散和连续的数据,但该算法不能辨别冗余特征。而Kalousis[4]和Riyaz Sikora[5]等人通过模拟实验证明了大多数特征选择方法对数据噪声比较敏感,难以保证得到最优特征。要得到较好的特征提取效果,要充分考虑样本的选择与转换,离散化和噪声干扰等问题[6]
在研究中发现,数据中大都包含无关特征,甚至噪声特征,而通常样本数据又不是很充足,那么很容易发生所谓过拟合(over-fitting)现象,导致算法分类精度能力下降、学习速度低。虽然FRI适合于在定性和定量的细分数据中提取特征,但对目标数据群使用同一个隶属函数进行模糊化,使得当细分共同特征较多时,现有的FRI方法进行特征选择的精度较差。文献[7]和文献[8]分别从特征提取的不同角度提出:在不降低精度和保证结果的特征分布和原始数据相似的条件下,应选择尽可能小的特征子集用于特征提取
2 模糊特征提取模型的构建与检测
通过定义一种对输入空间的一般模糊划分(Fuzzy Cut)确定特征子集,并根据样本数据自动生成隶属函数的新算法――FC-GMDH。该算法取代了对所有样本数据采用同一隶属函数,且建模过程中缺乏对数据样本进行划分的FRI方法,建立了一种新的基于模糊划分的自组织模糊特征提取模型。新算法由于根据特征子集样本数据来定义隶属函数,而不是领域专家的主观经验,更能体现模糊建模的客观性。通过对模型的检验来验证新算法的有效性
2.1 特征子集的划分策略
通常,描述目标对象需要一些特征,随着特征个数的增加,会出现维数灾难(curse of dimensionality)问题,直接导致识别率的降低。特征提取是对原始特征进行线性或非线性变化之后得到的一组特征,可以去除数据中的冗余特征、无关特征甚至噪声特征,从而得到一个无冗余、无噪声的样本集,有助于提高模式的识别率以及数据的挖掘速度。特征提取时,系统的状态和目标往往都是用自然语言描述的,难以定量确定,可以说建立具有模糊、不确定性的特征子集划分对于提取特征是至关重要的[9]
现有的FRI算法忽略了特征子集的划分,对所有的数据样本采用同一个隶属函数进行模糊化处理,使得当样本共同特征较多时,特征选择的精度较差
特征提取中首先要解决的问题就是特征子集的产生。一个最直接的想法就是枚举法,将所有可能的子集列出,然后进行评价,选择最优的一个,但该算法的计算量太大,实际运用中很难操作[10]
在构建模糊特征提取模型时,首要的任务就是将模型的输入空间划分成多个模糊特征子集,即模糊划分(fuzzy partition)
文档评论(0)