- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于用户画像大数据的电商防刷架构
一、背景介绍
最近 1~2 年电商行业飞速发展,各种创业公司犹如雨后春笋大量涌现,商家通过各种活动形式的补
贴来获取用户、培养用户的消费习惯。
但任何一件事情都具有两面性,高额的补贴、优惠同时了也催生了 羊毛党“ ”。
羊毛党“ ”的行为距离欺诈只有一步之遥,他们的存在严重破环了活动的目的,侵占了活动的资源,使
得正常的用户享受不到活动的直接好处。
今天主要分享下腾讯自己是如何通过大数据、用户画像、建模来防止被刷、恶意撞库的。
二、黑产现状介绍
羊毛党“ ”一般先利用自动机注册大量的目标网站的账号,当目标网站搞促销、优惠等活动的时候,
利用这些账号参与活动刷取较多的优惠,最后通过淘宝等电商平台转卖获益。
一、羊毛党分工
他们内部有着明确的分工,形成了几大团伙,全国在 20 万人左右:
二、 羊毛党“ ”从业特点
这些黑产团队,有三个特点:
三、对抗刷单的思路
对抗刷单,一般来讲主要从三个环节入手:
三、腾讯内部防刷架构
一、腾讯内部防刷的架构图
二、模块详细介绍
风险学习引擎:效率问题。由于主要的工作都是线下进行,所以线上系统不存在学习的效率问题。
线上采用的都是 C++ 实现的 DBScan 等针对大数据的快速聚类算法,基本不用考虑性能问题。
风险学习引擎:采用了黑 / 白双分类器风险判定机制。之所以采用黑 / 白双分类器的原因就在于减少
对正常用户的误伤。
例如,某个 IP是恶意的 IP,那么该 IP上可能会有一些正常的用户,比如大网关 IP。
再比如,黑产通过 ADSL 拨号上网,那么就会造成恶意与正常用户共用一个 IP的情况。
黑分类器:根据特征、机器学习算法、规则 /经验模型,来判断本次请求异常的概率。
白分类器:判断属于正常请求的概率。
我们以黑分类器为例来剖析下分类器的整个逻辑框架。
总的来讲我们采用了矩阵式的逻辑框架,最开始的黑分类器我们也是一把抓,随意的建立一个个针
对黑产的检测规则、模型。
结果发现不是这个逻辑漏过了,而是那个逻辑误伤量大,要对那一类的账号加强安全打击力度,改
动起来也非常麻烦。
因此我们就设计了这个一个矩阵式的框架来解决上述问题。
矩阵的横向采用了 Adaboost 方法,该方法是一种迭代算法,其核心思想是针对同一个训练集训练
不同的弱分类器,然后把这些分类器集合起来,构成一个最终的分类器。
而我们这里每一个弱分类器都只能解决一种帐号类型的安全风险判断,集中起来才能解决所有账户
的风险检测。
那么在工程实践上带来三个好处:
矩阵纵向采用了 Bagging 方法,该方法是一种用来提高学习算法准确度的方法,该方法在同一个训
练集合上构造预测函数系列,然后以一定的方法将他们组合成一个预测函数,从而来提高预测结果
的准确性。
上面讲的部分东西,理解起来会比较艰涩,这里大家先理解框架,后续再理解实现细节。
四、腾讯大数据收集纬度
大数据一直在安全对抗领域发挥着重要的作用,从我们的对抗经验来看,大数据不仅仅是数据规模
很大,而且还包括两个方面:
所以想要做风控和大数据的团队,一定要注意在自己的产品上多埋点,拿到足够多的数据,先沉淀
下来。
五、腾讯大数据处理平台-魔方
我们的团队研发了一个叫魔方的大数据处理和分析的平台,底层我们集成了 MySQL 、
MongoDB ,Spark 、Hadoop 等技术,在用户层面我们只需要写一些简单的 SQL 语句、完成一些配
置就可以实现例行分析。
这里我们收集了社交、电商、支付、游戏等场景的数据,针对这些数据我们建立一些模型,发现哪
些是恶意的数据,并且将数据沉淀下来。
沉淀下来的对安全有意义的数据,一方面就存储在魔方平台上,供线下审计做模型使用;另一方面
会做成实时的服务,提供给线上的系统查询使用。
一、腾讯用户画像沉淀方法
画像,本质上就是给账号、设备等打标签。
用户画像 = 打标签
我们这里主要从安全的角度出发来打标签,比如 IP画像,我们会标注 IP是不是代理 IP,这些对我们
做策略是有帮助的。
以
文档评论(0)