- 1、本文档共28页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个人信用风险评估方法的研究--基于lendingclub数据四川
个人信用风险评估方法的研究
--基于 lending club数据
四川大学 刘晶、谭峰、柴容倩
摘 要
信用风险的评价方法不断推陈出新,管理技术正日臻完善,许多定量技 、
支持工具和软件已付诸商业应用。由于我国商业银行和金融市场尚处转轨和新兴
发展阶段,缺乏对个人信用风险评估的基础理论的深究,个人征信系统的发展十
分滞后和缓慢,严重阻碍了中国社会经济的健康持续发展。因此,个人信用风险
的评估方法的探讨成为了热点话题。
鉴此, 本文以lending club公司2014年1月1 日到2015年3月31 日的
借款人数据为源数据,首先根据spearman秩相关性检验和主成分分析法从众多
变量中筛选出解释能力比较强的变量,然后依据筛选出的变量建立随机森林模
型、判别分析模型和logistic回归模型,通过这三类模型判断准确性的比较,
力图构建更为有效的个人信用风险评估方法,从而为该平台及出借人决策提供科
学依据。
实证结论如下:
第一,主成分筛选变量后可以减少模型变量个数起到降维的作用,但是在对
随机森林模型来说,由于其并非线性模型,而且筛选变量造成了信息的损失,经
过线性组合的特征并不一定能给模型带来更好的效果。
第二,通过训练集 10000个数据样本测试出三个模型的预测能力。其中,随
机森林模型和logistic模型的预测准确度比较高,分别为:81.87%和70.89%。
而判别分析的结果相对较低为:65.92%。
第三,通过测试集2325个样本检验三个模型的预测能力。总体来看随机森
林模型和logistic模型对测试集的预测准确度相近,远远高于判别分析的结果。
最后,通过预测的结果,和对模型分析之后得出三个模型的预测准确率分别
为:随机森林模型的判断准确率最高,而判别分析模型的准确率最低。 即:随
机森林的准确率logistic模型的准确率判别分析模型的准确率。其中,随机
森林模型判别的准确率又和其特征的选取有一定的关系。
综上所述,本文在建立P2P信贷风险评价模型相比较中认为,随机森林模型
会更加准确和可靠。
关键词:信用风险 随机森林 判别分析 logistic回归
目 录
一.问题的提出及研究概述1
(一)问题的提出1
(二)国外研究概述1
1.国外机构对个人信用评估的方法研究1
2. 国内典型个人信用风险评估方法3
二. 数据预处理4
(一)基础数据的情况4
(二)研究方法选择4
(三)定义变量4
(四)样本处理6
1.随机抽取样本。6
2. 补充空白值和缺失值。6
三.数据的探索性分析6
(一)变量基本情况分析6
(二)描述性统计分析7
四.解释变量筛选9
(一)spearman相关性分析9
1. 解释变量与被解释变量的相关性9
2. 解释变量之间的相关性10
3. 多重共线性分析11
(二)主成分法筛选变量11
1. 主成分分析的基本思想11
2. 主成分筛选变量过程12
五.个人信用风险评估方法的建模13
(一)各类模型建模13
1.随机森林模型13
2.判别分析法18
3. Logistic 回归19
(二)总结与预测23
1.变量的筛选对模型的影响23
2.各模型的比较23
3.各模型的预测24
参考文献25
一.问题的提出及研究概述
(一)问题的提出
在市
文档评论(0)