网站大量收购闲置独家精品文档,联系QQ:2885784924

探索商业银行在大数据挖掘技术领域的应用.pdfVIP

探索商业银行在大数据挖掘技术领域的应用.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

探索商业银行在大数据挖掘技术领域的应用

摘要:由于大数据的快速发展,传统的以业务经验模式进行的数

据库营销面临极大挑战。针对这种情况,提出基于大数据的数据挖掘

技术方法。首先了解业务需求,根据业务目标设计模型,接着进行数

据整合、数据清洗等,然后建立模型、对模型结果进行评估。实验结

果表明,应用大数据挖掘技术能有效的提高精准营销的成功率、进行

风险防控以及运营优化管理。

引言

随着大数据时代的到来,商业银行数据资产的价值也愈发显得更

加重要,为此,探索数据的应用场景和商业模式,建立技术平台,推

动商业银行从传统数据库营销到数据化运营,最终到运营数据的转变,成

为各家商业银行重点工作。笔者所在的银行依托分行大数据平台,致

力于大数据+人工智能+数据挖掘的探索与研究,从2014年就启动了

数据挖掘的相关工作,开发了卡分期模型、信用卡疑似套现评分模型、

信用卡客户流失预警模型、信用卡逾期预警模型、网点选址优化模型、

大额存单交叉营销模型、中高端客户流失预警模型等。下面就精准营

销、风险预警、运营优化三个主要应用场景介绍近三年运用大数据挖

掘技术建模实践的成效。

1精准营销

我行基于大数据平台丰富的数据来源及高效的分布式计算技术,

通过逻辑回归、决策树、神经网络、支持向量机等机器学习算法,结

合业务目标进行分析挖掘、构建模型、制定精准营销方案与策略。下

面以大额存单交叉销售模型和信用卡账单分期模型为例简要介绍建模

方法及收效。

1.1大额存单交叉销售模型

个人大额存单产品自推广以来,维持了较高的存款贡献与客户层

级上升贡献,是分行应对同业竞争、拓展存款和客户的技术手段和措

施。为更好地推动大额存单客户群的维护与拓展,争揽客户行外资金,

亟需通过该交叉销售模型找出高响应的客户进行大额存单精准营销活

动。

1.1.1建模样本及目标变量定义

建模样本定义为资产5万-100万的客户,模型的目标变量定义为

首次购买大额存单的客户。时间窗口定义:观察期,6个月;表现期,

3个月,经统计分析,样本的目标变量过少,为此,我们将两个观察期

和表现期的数据分布叠加起来,重新整合样本后进行建模。

1.1.2数据预处理

源数据来自客户基础属性、客户持有产品、客户交易行为、客户

基础属性变化、客户持有产品变化、贷款信息、代发薪信息、跨行转

账信息等数据。数据预处理主要包括变量衍生、异常值检验及处理、

缺失值检验及处理三个部分组成。

变量衍生:指根据业务的一些经验值和数据分析结果,主要针对

客户交易行为衍生了分渠道、分产品每月的交易金额最大值、均值、

最小值及每个产品和渠道对应的交易趋势等变量。

异常值检验及处理:异常值是指一个变量的值非常极端或者出现

频率非常低。对于一般的数值型变量根据盖帽原则,将最大值cap值

P99分位数;有业务实际意义的,根据业务逻辑来处理。对应字符型

变量通过查看其分布来检验,并根据业务逻辑来处理异常值。

缺失值检验及处理:对缺失值处理同样要分数值型和字符型两部

分,对应数值型变量缺失值的填充方法有总体均值填充、类均值填充、

回归预测填充等,本次模型主要采用总体均值填充的方法和业务实际

来填充。对字符型变量的缺失值我们用N来填充。

1.1.3分析建模

变量首次筛选:由于源变量较多,首次筛选去掉那些对目标变量

影响不大的变量将会减少后续工作量。结合变量的IV值和单个变量进

入逻辑回归模型的结果,筛选出相对重要的变量。

变量分组:由于LOGISTIC回归只能对数值型变量进行建模,对字

符型变量需要预处理或分组衍生出哑变量,同样的对数值型变量也做

了分组处理。我们在目标变量的监督下,对变量进行分组处理。并将

分组结果转换为变量对应的woe值。

变量二次筛选:对转换为woe值后的变量做共线性诊断,剔除相

关性较强的变量。

模型开发:首先将建模样本分为训练集和验证集,采用逐步回归

的方法进行LOGISTIC回归的开发。基于此模型结果我们可以预测出资

产5-100万的客户首次购买大额存单的可能性的大小。根据模型的评

分结果,给定营销组A、B和对照组C、D,其中A和C是

文档评论(0)

180****0055 + 关注
实名认证
文档贡献者

硕士研究生

1亿VIP精品文档

相关文档