大数据背景下融资企业信用特征分析.docx

大数据背景下融资企业信用特征分析.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

??

?

??

大数据背景下融资企业信用特征分析

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

王宁王澍张江陶鹏

摘??要:国网大数据中心泛在电力物联网建设对电网金融数据分析的范围、模式和方法提出了更高要求。面向大数据样本研究,如何将大样本相比于小样本的独有特征体现在分类模型中值得深入探索。以供应链的金融数据的分布特征为出发点,研究了影响信用风险分类模型的主要因素,进而概括出信用数据的分布特征,并探讨了进一步的解决策略。通过电网供应链金融大数据分布特征的分析,旨在研究出电网全业务数据后隐含的信息,以此来为信用风险模型的构建提供了前提条件。

关键词:泛在电力物联网;供应链金融;信用风险;国网大数据;全业务数据中心;离群点;多维

中图分类号:F276.3???文献标志码:A???文章编号:1673-291X(2019)35-0131-02

引言

大数据(BigData,BD)是经济发展到一定阶段的产物,是时代的烙印。尤其是数字时代的今天,它促使具有多重媒介的电网业务数据出现大幅上涨。国际数据公司IDC(InternationalDataCorporation)在《2018—2019年产业发展研究报告》中指出,2018年全球超大规模数据中心为430个,较2017年增长11%;全球业务市场整体规模达到6253.1亿元人民币,较2017年增长23.6%。大数据的到来在很大程度上改变了电网业务的发展,通过研究电网业务数据来侧面反映出用户行为规律,从而进一步挖掘潜在的商业价值以及社会效益,也创造了更多具有价值的信息。Gantz等描述了包含体积(Volume)、变化(Variety)、速度(Velocity)、准确性(Ve-racity)和价值(Value)五个方面内容构成的大数据5V理论。其在阐述5V理论时指出数据的准确性及价值对于大数据而言是非常重要的,如果没有数据分析出存储、管理等方面的内容的话,它将不会产生更多价值。

一、国家电网供应链金融大数据分析的现状

电网供应链金融是以核心企业为中心的,并通过管理物资流、现金流以及信息流来将其上、下游各级供应商及终端客户紧密联系在一起的一个网络结构。它是国家电网公司落实支持实体经济和小微企业的央企责任的重要手段,有助于优化产业链条生态环境,提高供货的稳定性,降低网省公司经营风险,同时,供应链金融作为新兴信贷服务模式,将成为国家电网公司金融业务新的重要增长点。电网供应链融资比传统的融资模式具有很多的不同点,例如,评价指标动态多样化、资金关系复杂等,这也使得电网供应链融资的风险及风险评价有其独特之处。通过大数据形成的多维评价机制能有效的对融资企业的数据进行准确、客观的分析出其的资信状况,这也在很大程度上为多数风险型的企业提供资金融通,从而推动电网公司与融资企业的和谐发展。

二、融资企业信用数据的分布特征

(一)信用数据的非对称性与不平衡性

信用评估其实可以直接将其看成是一个二元的客户分类问题,信用样本的获取具有涌现性的特征,指的是在众多样本中往往很少发现具有价值的样本点,而且这类样本明显少于其他类样本的集合被称为不均衡样本,总而言之,信用评估问题具有很多特性,譬如类别分布不平衡与不对称等,这些对供应链金融风险评价形成了较大制约。

(二)信用数据噪声和离群点问题

在信用风险评价领域的发展中,噪声和离群点会直接导致信息、周期性的统计误差以及报告偏倚出現错误。噪音离群点又被称为孤立点,它的存在会直接影响分类精度。而引起噪音离群点产生的原因有多种,例如异类、数据变量的固有变化、数据误差等。因此,加强高维空间的数据稀疏问题处理力度,并采用合适的度量方法,能有效促进离群点的发展。

3.3信用数据的非线性多维特征

信用风险评估具有多个特点,如高维、非线性等,而现有的分类方法都是一句数据间的相似度来区分的,但是,如果是在高维的情况下,由于数据比较稀疏,会使得数据间的距离及区域米密度不再明显,再加上高维度的数据对样本数量的要求较高,当数据维度大于样本数量时,就会出现拟合现象,因此,完善高维数据的本质低维结构,就必须首先解决数据低维问题。

三、解决信用数据分布特征的相关策略

(一)非均衡样本的解决策略

1.基于数据分布的调整

数据准备阶段是进行数据分布调整的基础,因此,必须做好数据准备,才能通过数据分组或者数据采样等方式促使类别的平衡,以此来消除类别的不平衡问题。由于利用重抽样算法来扩充少量样本会直接产生拟合问题,无法得到理想的效果,于是Pierri等人就采用了案例控制匹配的Logistic回归、平衡样本的Logistic回归和ROSE(RandomOverSampling)平衡样本回归这三种方法来解决非均衡信用数据所产生的分级问题,并取得了很好的效果。这也

您可能关注的文档

文档评论(0)

胡珍 + 关注
实名认证
内容提供者

90后

1亿VIP精品文档

相关文档