基于SVM和GA-SVM的个人信用评估模型研究.docxVIP

基于SVM和GA-SVM的个人信用评估模型研究.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

基于SVM和GA-SVM的个人信用评估模型研究

?

?

李博敏夏春蒙

摘要:在大数据时代,“数据”的作用不可估量,被广泛应用到各个领域,提高了各行各业的生产效率,继而促进了经济的高速发展。同时,由于数据的高效使用,我们的生活方式也在不断改变,其中最值得重视的是我们的消费模式发生了很大的变化,信用消费模式越来越普遍,所以对消费个体进行信用评估也就越来越重要。对个人进行信用评估指的就是对个人的历史信贷数据进行综合分析,判断其是否能够按期还款。文章采用机器学习的方法,先用支持向量机(SVM)算法对个人的信用进行评估,然后再采用遗传算法对支持向量机进行优化(GA-SVM),并进行实证分析。实证结果显示,采用GA-SVM模型对个人信用进行评估的效果比SVM的效果更好。

关键词:支持向量机;遗传算法;GA-SVM;优化算法。

:F832.4

1?引言

随着大数据时代的不断发展,数据共享已经成为了一种趋势,这也渗透到各行各业的发展中去了。我们的生活方式在逐步改变,就拿消费行为来说,人类社会已经从以物换物的时代走进了货币时代,现在正朝着数字时代大步向前。新兴的信用消费模式越来越受欢迎,当然,任何一个新兴事物的发展必然会带来新的难题,信用消费模式的产生带来的一个最重要的难题就是信用是如何产生的,即如何去评估一个人的信用状况。个人信用评估是指通过分析个人的信贷信息,从而判断他的信用水平,供贷款发放者参考能不能向其发放贷款以及发放的额度,这对商业银行及其他金融机构来说十分重要。国外学者很早就对个人信用评估方法进行了研究,探索到了很多适合的模型及方法[1]。运用统计学的方法对个人的信用进行评估具有很强的解释性,但是如果只用统计模型进行分析的话,必须要求我们的数据有严格的分布,而往往我们的个人信贷数据维度比较高、定性变量较多,分布也不是特别的严格,所以并不是很适合用统计学的方法来分析。支持向量机(SupportVectorMachine,SVM)算法主要用于对数据进行分类,并且不用要求有严格的数据分布。VanGestel对信用评估模型进行了研究,发现SVM算法能取得不错的结果[2]。但是,SVM的参数并不好确定,基于这一点,我们首先使用SVM对个人的信用状况进行评估,然后再采用遗传算法(GeneticAlgorithm,GA)进行优化,并进行了实例验证。

2?支持向量机算法(SVM)

支持向量机(SVM)是按监督学习的方式对数据进行二分类的一种人工智能方法,它对小样本的数据集进行分类的效果比较好。并且,SVM还通过引入核函数使其成为了一种非线性的分类器,它的学习策略就是找到一个最优的分离超平面,然后将目标转化为一个求解凸二次规划最优化的问题。

SVM的目标是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。图1为SVM分类示意图,是分离超平面,如果只是单纯的想要找到能够将数据集划分开的超平面,那么这样的超平面有无数个,这也就是我们所说的感知机,但是想要找到几何间隔最大的分离超平面却没那么容易,这样的超平面也是唯一的[3]。

假设在特征空间上的训练数据集为:

其中,,,,为第个特征向量,为标签值。

对于具备p个特征的数据,其特征向量为p维向量,SVM的目的就是找到能够将两类样本点完全分离开的一个p-1维超平面。对于给定的数据集T和超平面来说,这个超平面关于样本点的几何间隔的计算公式为:

(1)

SVM所求解的超平面是使得间隔最大的超平面,SVM模型可进一步改进为:

s.t????????(2)

其中,为松弛变量;表示惩罚因子,表示部分样本能够允许不完全被超平面完整划分的约束强弱。

如果想要解决空间中的非线性分类问题,则可以通过非线性变换将它转化为线性分类问题来求解。在高维特征空间内求解样本的最优分类超平面是通过点积来计算的,即,我们需要找到一个函数,使得。所以,我们只用将原来在低维空间中的换成,然后计算点积就可以了,这里的函数则被称为支持向量机的核函数。

支持向量机能够有效解决小样本数据的分类问题,其抗噪声能力比较强,并且能够有效解决非线性的问题。但是,当样本的数据量太大的时候,模型训练耗费的时间就会比较长。支持向量机主要是用于做分类的,还可以通过建模进行预测,比如对景区的人流量进行预测。

3?遗传算法(GeneticAlgorithm,简称GA)

遗传算法(GA)是基于生物学上“优胜劣汰,适者生存”的理论,通过设定一个适应度函数,对群体中的个体进行选择、交叉、变异的遗传操作,选出适应度高的个体,然后再将选出来的新个体组成一个新的群体,这样,新群体的个体适应度就会不断提高,直至找到我们需要的最优解,也就是群体中适应度最高的个体[4]。GA的最主要的特点就是不用对算法

您可能关注的文档

文档评论(0)

南江月 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档