网站大量收购独家精品文档,联系QQ:2885784924

人工智能反欺诈三部曲——特征工程.pdfVIP

人工智能反欺诈三部曲——特征工程.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Maxent 猛犸反欺诈 人工智能反欺诈三部曲 ——特征工程 近年来,随着移动互联网的兴起,各种传统的业务逐渐转至线上, 互联网金融,电子商务迅速发展,商家针对营销及交易环节的推广 活动经常以返利的形式进行。由于有利可图,此类线上推广迅速滋 生了针对返利的系统性的优惠套利欺诈行为,俗称薅羊毛。由于移 动设备的天然隐蔽性和欺诈行为的多变性,传统的防范手段,比如 规则系统等就显得有些笨拙和捉襟见肘了,使得薅羊毛看起来仿佛 防不胜防。但是正所谓魔高一尺,道高一丈。在实践中,我们发 现,一个基于统计和机器学习的多层动态风险评分体系和决策系统 能有效地抵御“羊毛党”的攻击。那如何打造这样一个系统呢? 

首 先,我们来了解下此系统的核心部分之一:特征工程 。 

 特征工程,又称特征学,是学习一个特征的技术的集合,将原始数 据转换成为能够被机器学习来有效开发的一种形式。通俗地讲,特 征工程对原始数据进行加工,将其转换为精确的,可量化的数据。 

 著名法国小说《小王子》中有这样的描述:“如果你对大人们说‘我 看到一幢用玫瑰色的砖盖成的漂亮的房子,它的窗户上有天竺葵, 屋顶上还有鸽子 ……‘,他们想象不出来房子有多好,必须对他们说 ‘我看见了一幢价值十万法郎的房子’他们才能理解房子有多好。”文 Maxent 猛犸反欺诈 中,从房屋模糊的文学性描述到“十万法郎”就是一个特征学习的例 子。 

特征工程转换后的数据能被更好的理解和运算,方便我们从貌 似渣乱无章的原始数据中找出那些可疑的异常数据。它是机器学习 中很重要的一步,也许是最重要的一步。在机器学习领域里有一个 不成文的共识, 数据和特征决定了机器学习的上限,而模型和算法 只是逼近这个上限而已。 

在反欺诈的实践中,我们发现从网络及设 备终端、用户行为信息、业务事件频次,欺诈网络图谱这四大维度 提取特征,并在此基础上对有组织的薅羊毛行为层层筛查,对风险 加以甄别,就能让羊毛党无所遁形。 设备终端与网络

设备终端与网络层面的特征是防范羊毛党的第一道 防线,为了规避筛查,或者方便适用自动化工具,欺诈者首先选择 在终端做手脚。他们或者适用PC或服务器以脚本或模拟器冒充终端 设备,或者在终端设备上,Root, 越狱,打开调试模式,安装一键 新机软件,按键精灵等等,也有的正常用户不幸安装了木马程序, 而沦为任人摆布的肉鸡。除了终端,网络也是欺诈者最常摆弄的, 他们经常适用代理,VPN, 或和一些机房的网络管理人员合作,分散 IP,进而冒充来自不同的地域。 

 为了对抗上面所提到的种种作弊行 为,在实践中,我们通常按下面的方法来构造一个设备指纹系统: 1)根据收集到的历史数据,形成操作系统签名数据库。这个数据库 被用于判断一个设备的操作系统签名是否和声明的操作系统及厂 商,型号等吻合,进而判断设备是否是脚本程序或模拟器伪装,是 否使用了代理或VPN ,是否篡改了UA等设备信息等等;2)对设备 的IP来源进行分析,看是否有可疑行为的历史,是否来自机房,从 Maxent 猛犸反欺诈 而判断其自动化或作弊的可能性;3)根据设备相关的三十多个特征 将设备进行关联,赋予其唯一的身份识别符,此ID是上层特征,即 用户行为、频次及欺诈网络图谱的基础。 

 用户行为信息

在坚实的设备指纹的基础上,需要在会话和账号两层 采集和提取用户行为信息。在会话的层面上,借助基于概率的聚类 模型和模式挖掘算法(sequential pattern mining),将用户的行为模 式,比如事件发生的次序以及事件发生的间隔时间,归为几类。并 在此基础上识别出异常行为模式。这些标示特征为区分正常用户和 欺诈者或自动化工具提供了重要信息;更进一步,在账号的层面 上:首先以账号为索引,将会话层面上提取到的行为信息特征按时 间串联起来,得到账户层面的异常行为标示特征。其次根据账号相 关联的历史行为数据,提取出用户的偏好属性,比如是否为僵尸账 号,相邻登录的平均地理距离等。最后,我们将这些信息综合起 来,形成特有的用于反欺诈的用户画像。 

 当一个账号再次出现在业 务

您可能关注的文档

文档评论(0)

ma982890 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档