- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
外文翻译之一
Combination of feature selection approaches with SVM in credit scoring
作者:Fei-Long Chen , Feng-Chia Li
国籍:Taiwan,ROC
出处:Expert Systems With Applications
原文正文:结合支持向量机的特征选择方法在信用评估中的应用
作者:Fei-Long Chen , Feng-Chia Li
国籍:Taiwan,ROC
出处:Expert Systems with Applications
中文译文:
摘要
信用评级已成为一个重要课题,相关部门都在努力收集大量的数据以避免做出错误的决定。一种有效的分类模型可代替直觉的经验客观地帮助管理者进行决策。本研究在保留足够的特征信息条件下,提出了四种与支持向量机相结合的特征选择方法。利用这四种方法进行属性选择可以构建各种不同的模型。两个UCI(美国加州大学尔湾分校)的数据集被用来评估各种混合SVM模型的精度,并利用支持向量机分类器与传统的统计LDA、决策树、粗糙集、F-score相结合,进行特征数据的预处理,删除不相关和冗余的信息以优化特征空间。在本文里,我们将会对所提出的方法步骤加以描述,并通过他们的分类性能进行评估。最后我们将对结合支持向量机的各种模型的分类结果进行比较,利用非参数Wilcoxon符号秩检验显示这些模型之间是否具有显著性差异。本研究结果表明,混合的信用评估方法是一种寻找最优特征子集的最为稳健的方法,也是数据挖掘领域中很有前途的方法。
关键字:支持向量机、线性判别分析、决策树、粗糙集理论、F-度量
1、简介
消费信贷预测在信贷行业里是一个非常重要的问题。信用评级模型在这个领域里快速增长,被广泛应用于信贷准入评估。信用评级模型的开发是根据以往客户的记录,即他们的相关属性诸如收入、婚姻状况、年龄或其他属性来区分哪些是优质客户(接受贷款)或者是不良客户(拒绝给予贷款)。在过去的几年里,大多数信用评级模型常通过减少冗余的特征,以改进信用评级的准确性。Dash and Liu (1997)对当前存在的基于特征选择的方法进行了综述,并认为特征选择过程由四部分组成,包括特征生成、特征评价、停止准则和测试。常用的评价指标诸如准确度,信息含量,距离和相关性等常被用来去除无关的特征。人工智能与机器学习技术可用来解决这些决策问题,现代数据挖掘技术已经用于建立信用评分模型(Huang, Chen, Wang, 2007)。研究人员已发展各种各样的传统统计方法,其中涉及线性判别方法(Bellotti Crook, 2008; Lee Chen,2005; Thomas, 2000)、决策树方法(Huang, Tzeng, Ong, 2006)、粗糙集理论方法(Caballero, Alvarez, Bel, Garcia, 2007)、 F-score方法(Chen Lin, 2005)和遗传规划方法(Ong, Huang, Tzeng, 2005)。最近,研究人员又提出了混合的数据挖掘方法对有效的信用评级模型进行设计。Lee和他的同事们(Lee, Chiu, Lu, Chen, 2002)整合神经网络与传统的判别分析法,以及Chou(Chou, Lin, Liu, Chang, 2006)应用机器学习方法(如ANN、DT和支持向量机)来解决决策问题。一般来说, 信用评级可视为将观察数据分类到预先定义组的二元分类问题 。以前的研究主要集中在增加信用评级模型的准确率上。然而,即使一点点的改善也会引起显著的成本节约。根据先前的研究,机器学习方法在处理信用评级问题上均优于传统方法,特别是非线性模式分类。对传统的统计分类,都存在假设一个潜在的概率模型。而最近发展起来的数据挖掘技术不存在这样的限制条件,可以实取得优于传统统计分析方法更好的预测性能(Huang et al., 2007)。
特征子集选择算法可以分为两类: 过滤式方法和封装式方法(Liu, 1998)。过滤式方法首先是选择重要的特征子集。过滤式方法的特点是独立于任何学习算法,仅依赖于训练数据总体特性的各种度量,如距离、信息含量、相关性和一致性。封装式模型通常使用预先确定的学习算法,根据预测精度来确定所选择的特征子集。但当这些学习算法用来计算大量的特征数据时,所需要的成本是非常昂贵的(John, Kohavi, Pfleger., 1994)。一般来说,过滤方法速度快,可以用来作为减少特征空间维数和过度拟合的预处理步骤。另一方面,封装方法在寻找相关有用的变量子集上可以表现的更好(Guyon Elisseeff, 2003)。 然而,众所周知的是这个问题非常困难(Am
文档评论(0)