大数据下P2P网贷借款人行为风险分析.docx

大数据下P2P网贷借款人行为风险分析.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

大数据下P2P网贷借款人行为风险分析

?

?

韩颖齐翔李鑫

摘要在大数据背景下,P2P网贷快速发展,同时也伴随着更多的风险,本文通过建立二元Logistic回归模型对借款人借款行为进行分析,在选取的10个变量里,借款人年龄、所在地、工作性质、合同金额对借款人借款行为影响显著,并且,通过拟合二元Logistic回归模型对有无逾期的借款人的分类准确率达到75.1%,说明模型拟合效果较好,最后提出相应的建议。

关键词Logistic回归模型借款人逾期

:F830:A

随着计算机技术的发展,传统金融业与互联网相融合,形成了新的行业——互联网金融,而P2P网贷则是互联网金融的一个重要的组成部分,P2P网贷平台,是P2P借贷与网络借贷相结合的互联网金融服务网站,P2P借贷是英文peertopeerlending的简写,其中peer指的是个人。为了了解P2P网贷借款人的信用风险,本文通过建立二元Logistic回归模型分析影响借款人借款行为的影响因素,从而可以减小借款违约率,降低借款人的信用风险。

1Logistic回归模型

当回归模型里被解释变量为二分类变量时,二元Logistic回归模型是研究被解释变量与解释变量之间关系的常用方法,本文将被解释变量分为正常借款人(没有违约)和非正常借款人(违约),这正是一个二分类问题,二元Logistic回归模型能很好的解决此类问题。二元Logistic回归模型的核心思想是:假设y表示借款人申请贷款这一事件,取值为1表示借款人违约,取值为0表示借款人履约,用1和0作为被解释变量的取值进行回归。本文通过建立二元Logistic回归模型得到借款人发生违约的可能性,即因变值为1的概率,所以回归模型结果具有直观含义。

2数据来源与指标选取

2.1数据来源

本文数据来于P2P网贷公司(青蚨普惠),它全面记录了每一个借款人的信息资料,本文选取了安徽省5个地区借款人的177条信息,这5个地区分别为合肥、安庆、马鞍山、阜阳和蚌埠。其中,正常借款人(没有违约)人数为120,非正常借款人(违约)人数为57。

2.2指标选取

指标的选取对模型的建立相当重要,通过阅读大量文献并结合P2P网贷平台客户资料的特点,本文确定了借款人4个方面的指标作为借款人信用风险评价备选指标。如表1所示,其中包括一级指标和二级指标及指标的取值情况。

从表1可知,备选指标有12个,解释变量较多,变量间可能存在着较强的相关关系,如果都引入模型会造成多重共线性的后果,因此,对于可能产生的多重共线性采用VIF(方差膨胀因子)进行检验,通过检验,除去月还本息(x11)和工作年限(x12)这两个变量,保留在模型里有10个变量。

3模型分析

3.1模型检验

对模型的系数进行综合检验,所选变量均进入方程,概率p值为0.002,小于显著性水平,应拒绝所有回归系数同时为0的原假设,解释变量整体与LogitP之间的线性关系显著,因此采用该模型合理。

3.2回归结果分析

通过SPSS统计软件里选择向后逐步进入法建立二元Logit回归模型,最终保留在模型里的解释变量为年龄(X2)、工作性质(X4)、借款人所在地(X5)、合同金额(X7)和借款利率(X9),如表3所示。

从表2可知,留在模型里的5个指标是:年龄、工作性质、借款人所在地、合同金额和借款利率。这5个指标对模型影响显著。其中:借款人的年龄越大,其违约的可能性越低,信用风险就越小;借款人的工作性质里职位越高,风险越低;借款人所在地经济越发达,违约的概率就越小,风险越低,借款人的借款合同金额越大,风险越高,借款人的借款利率越大,违约的概率越大,风险越高,同时,Exp(B)值代表自变量对因变量的影响程度,取值越大,说明违约的概率就越高,从上表可知,借款人年龄、工作性质、所在地对因变量影响较大,而合同金额、借款利率对因变量的影响较小。

4模型验证

表3显示了Logit回归初始阶段的混淆矩阵,模型总的预测正确率为67.8%。当所选择的指标作为方程的解释变量时,模型总的分类准确率达到75.1%。准确率比没有解释变量进入模型时要高很多,因此二元Logit模型评价效果较好。

5结论与建议

(1)借款人年龄、工作性质、所在地、合同金额、借款利率对借款人违约率影响显著;(2)在影响因素里,借款人年龄、工作性质、借款人所在地对因变量影响较大,而合同金融、借款利率对因变量的影响较小。(3)当所选择的指标为方程的解释变量时,模型总分类准确率为75.1%,比之前没有解释变量进入模型时要高很多,二元Logit模型评价效果较好。

因此,本文認为,对于借款人而言,不要一次性借高数额的贷款,这样违约风险就大,对于监管部门,应该实现大数据资源共享,逐步完善个人征信体系。

基金项目:铜陵学院人文社会科学研究

文档评论(0)

132****1010 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档