大数据风控九大技巧精要.pptx

下载文档 降价啦

24
0
约3.68千字
约 12页
2017-04-08 发布于湖北
举报
版权申诉
保障服务

大数据风控九大技巧精要.pptx

1、本文档共12页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据风控九大技巧精要

大数据风控九大技巧 2016年12月一、如何优雅的填充缺失数据问题定义：大数据征信在引入更多、更全面外部数据源的同时，不可避免的面临大量数据缺失的问题。例如，外部数据源A和B分别可覆盖一亿人群，然而其交集可能只有两千万，另外1.6亿的人群的数据是部分缺失的。解决方案：针对这一问题，前海征信研发了基于贝叶斯网络的缺失值填充技术。贝叶斯网络本身是一种有向无环的概率图模型，适用于离散和连续变量，用变量间的相关性，构建变量间的决定网络。如下图所示，每一个结点表示一个变量，每一条边表示变量间相关。比如，x5的分布取决于x1和x3的取值，而x5确定以后，又会影响x7的取值。x1到x7七个变量，可以联立写一个长长的联合分布函数，在部分变量观测到的情况下根据贝叶斯定理求出剩余缺失变量的后验分布。这样我们就可以在部分数据已知部分未知的情况下，求出未知变量在已知变量被观测时的条件概率，实现了缺失填充的目的。二、会自学习的子母模型问题定义：相比于传统模型，大数据信用评级模型往往涉及上千变量，使用这些高维特征容易造成模型过拟合，尤其是在小数据集的时候。同时，模型的效力会随着时间逐渐减弱。解决方案：为了充分利用高维数据并控制过拟合，国内一家征信公司研发了子母模型技术，将稀疏的大数据信息先通过子模型加工成密集信息，即将子模型的输出信息作为母模型的输入变量，将信息逐层加工，形成模型嵌套模型的技术方案。子模型可以采用较新的技术如神经网络、随机森林、支持向量机等机器学习算法，母模型可以采用传统成熟的logistic回归等技术方法，在模型应用框架不发生太大变化的情况下，实现更好的区分效果。同时，为了监控模型表现，业内使用动态调整机制，一旦部分子模型效果下降至某个最低阈值，则该模型会被剔除出子模型序列，替补模型会立刻增补进入到子模型序列中，从而实现模型随着数据的更新而自学习。三、即使是黑盒模型也有可解释性问题定义：很多前沿的机器学习模型是一个黑盒，我们无法知道如果一个人的信用评分很低，是什么原因造成的。然而，模型（或评分）的可解释性对风控业务实施有着重要的意义：一来黑盒结果很难和申请人去沟通；二来黑盒结果的风险是很难去把控和估计。解决方案： Marco Tulio Ribeiro在KDD2016上提出了一个名为Local Interpretable Model-Agnostic Explanations（LIME）的解决方案，业内借鉴了这个论文结果。LIME的思路是通过不断扰动输入特征，并观测其对预测结果的影响，来识别哪些特征变量可以用来解释结果。以识别树蛙的图像分类器为例，将原图像进行无规律的扰动后，模型会以一定概率判断图像实例是否包含树蛙。最后，我们给出带有最高正权重的超像素作为解释，将其它部分都改成灰色。业内利用LIME去捕获结果或者局部结果中的关键变量，然后让风控专家迅速的抓到是因为哪些特征导致的结果的变化。四、就算训练样本再小也要做好模型问题定义：很多征信领域的创业独角兽们没有办法获取足够多的好坏标签。一种方法是去征信机构或放贷机构交换或购买好坏标签，然而大多数机构都想获得别人的而不想分享自己的。在只有少量标记样本的情况下如何做好信用评分模型？解决方案：传统的机器学习技术分为无监督学习和监督学习两类。无监督学习利用未标记的样本集，而监督学习利用标记的样本集。在信贷场景下，只有少量的标记样本，这促进了科研人员研发能同时利用标记样本和未标记样本的半监督学习技术。比如，一种半监督支持向量机模型可以在明确知道有一些人是好的和有一些人是坏的前提下，通过一个分类器对其他未知的变量进行处理的过程中，采用自适应的学习方法在未知的人群中把有明显倾向的人分成好的和坏的。五、让非结构化数据大放异彩问题定义：互联网的蓬勃发展，交互的方式越来越多样化，大量的语音、文字、图片、视频信息等非结构化数据充斥着人们交流的空间。如何对这些信息作分析、提取出有价值的东西？解决方案：非结构化的数据往往价值密度低，其中包含着大量的垃圾数据，即存在大量共现但又毫无意义的关联模式。研究人员针对这些数据，细分了不同的非结构化数据的来源和类型，利用自然语言处理技术，将非结构数据转变成结构化数据，用于风控建模。以用户对产品问题的反馈为例，业内一家Fintech公司使用无监督的主题模型方法，将文本聚类，从而获得有限数量的问题主题；为了了解用户是否对产品体验良好，还可以使用基于情感词典的文本-词项匹配方法，来计算文本的情感强度和极性；使用语义网络分析技术，来更全面地了解到一个问题与另一个问题之间的关联，清楚地说明两个问题之间的相互影响，从而能够更清楚地回答问题的发生或结果；采用时间序列方法，基于时间维度，分析各个用户反馈主题