基于机器学习算法的中小企业信用评估研究.docxVIP

基于机器学习算法的中小企业信用评估研究.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

基于机器学习算法的中小企业信用评估研究

?

?

孙治河张雷

摘要:采用大数据方法预测企业违约风险具有重大的现实意义。传统的信用评估模型主要是统计分析模型、判别分析模型等,预测能力有限。因此,文章建立了基于随机森林和支持向量机两种机器学习算法的信用预测模型,并引入ACC、AUC以及FNR评价指标来衡量模型预测的效果。对比实验表明,基于随机森林的信用预测模型较支持向量机模型具有更好的预测效果,证实了模型的优越性。

关键词:随机森林;支持向量机(SVM);信用评估模型;中小企业

0引言

中小微企业在吸收社会就业和促进经济发展方面逐渐发挥着越来越重要的作用[1],而中小企业本身内外部的局限性也使其始终面临着严重的融资缺口。在此背景下,各金融企业放宽了对其贷款力度,但信贷危机问题也随之而来,需要建立全面客观的信用评价模型实现对中小企业违约判别预测,最大化规避不良信贷风险,实现中小企业与贷款行业博弈双方的平稳运行和合作共赢。评估体系建立的关键在于科学指标体系的选取和学习算法的选择。

通过大数据和机器学习建模的思路针对中小企业融资问题分别建立了随机森林和支持向量机信用评估模型,克服了传统方法信息挖掘不足等局限性,健全了融资风险评估体系,进一步提高金融机构降低风险的能力[2]。

1数据处理及评价指标建立

采用中小企业贷款及各项企业特征数据集,包括企业规模在内的170个特征值。建立原始指标体系之前,应用多重插补法和六西格玛原则对缺失和异常值进行了预处理操作。根据企业是否违约划分数据集,由于统计分析可知样本集存在“统计性歧视”的不平衡分类情况,会对模型产生负面影响,故通过重采样法加以纠正。

考虑到评价指标体系的全面性、系统科学性等原则,将信用评估指标从财务因素指标和非财务因素指标角度划分为企业规模、偿债能力、盈利能力、发展能力4方面共10个指标。

2两种机器学习模型对比实验研究

2.1基于随机森林的信用评估模型

为评价相同数据样本下不同模型的准确程度,本文引入林成德等人提出的精度评估方法来评价模型评估精度[3]。经过数据处理的指标数据打包为训练数据,以企业是否存在失信行为作为标签向量建立随机森林回归模型。基本步骤如下:

使用Bagging方法形成个体训练集,从原始训练集中随机选择一定比例的样本组成新的训练集进一步生成分类树;

从M个指标作选出最具分类能力的指标作为节点的拆分属性并遴选最佳分割方法的分割节点;

每棵分类树可在不修剪情况下生长演化;

按照前3个步骤建立大量的决策树形成随机森林,选取决策树投票最多的一株为最终分类结果。

2.2应用网格有哪些信誉好的足球投注网站法选取最佳参数

2.2.1决策树编号的参数确定

将n作为决策树的数量的估计值,以10~100为有哪些信誉好的足球投注网站空间,以10为步长进行有哪些信誉好的足球投注网站和调整。当子模型增加时,模型的标准差减小,模型泛化能力增强。进一步观察其精度变化可知:当子模型数量增加到70个左右时,模型精度不再有显著的提高。因此将70作为决策树的数量参数。

2.2.2结点和叶的参数确定

本文定义了将内部节点重分配所需要的最小样本数min_s和叶节点的最小样本量定义min_l。当节点的样本数小于min_s,则停止分割。通过调参观察可知min_s和min_l分别为40和100时,模型取到最高精度83.7%。通过比较基尼系数和熵指数可观察到模型的精度基本保持不变,决策树的最大深度为9。

2.3?基于支持向量機的信用评估模型

如果信用评估问题是线性可分的,那么SVM模型的决定边界就是对训练集找到的最优超平面

D(x)=wTx+b(1)

其中:w是个特征值的权值,b是常数。

其决策函数为f(x)=sgn(wT+b)(2)

式中:sgn为符号函数,当D(x)0时,sgn(D(x))=1,反之为0。

在此模型的求解过程中,需要使用核函数进行非线性映射处理到高维特征空间从而转化为线性可分的问题。因此,核函数和参数的选择对SVM回归效果影响显著,本文选择的是径向基核函数。此外,还引入了惩罚参数C,在训练集样本上采用网格遍历方法,通过遗传算法对参数进行优化并通过交叉验证检验。观察可知,当C值为4时,模型精度达到最大值,即82.5%。

2.4对比实验结果分析

通过实验得到两种模型预测结果对比如下图。将使用提取的特征样本集对测试集上的2311个数据进行了预测,随机森林模型中对数据模糊推理和不确定度分别为0%和88.4%,AUC=76%,预测结果的准确率为98.3%;在支持向量机模型中,FNR仅为3.06%,AUC为73%,预测的准确率为96.94%,表明两种模型都具有良好的效果且随机森林模型的评估效果优于支持向量机模型。模型在对企业不违约的概率判别中显示出了很好的效果,但对企业违约概率的判别由于数据的不均衡使得实验结果较差。随机森林模型ROC图

文档评论(0)

159****4253 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档