- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Anastasiia Izotova et al. / Procedia Computer Science 186 (2021) 721–726
PAGE 726 Anastasiia Izotova et al. / Procedia Computer Science 186 (2021) 721–726
泊松过程和机器学习算法在信用卡欺诈检测中的比较
摘要
本文描述了不平衡数据中的财务欺诈检测。我们比较了信用卡欺诈检测问题的各种方法。一方面,我们使用齐次和非齐次泊松过程来确定具有不同强度参数函数的预测欺诈的概率。另一方面,我们使用机器学习算法和不同的集成方法(如boostings)来解决分类问题。比较了两种方法的结果。文章还讨论了“假阳性”问题。
强度模型;机器学习;增强合奏;不平衡数据
1。 介绍
目前,大多数银行为用户提供安全的在线服务。这种保护的要素之一是检测和防止欺诈交易的系统。
在俄罗斯,2019年最后一个季度非现金支出的份额为50.4%,据分析师称,50%的门槛将在未来被克服。这些数字表明非现金交易增加,欺诈交易也增加。根据迈克菲的数据,2018年网络犯罪占全球国内生产总值的0.8%,世界银行估计网络攻击每年给全球经济造成的损失为4450亿美元。预计到2020年第二季度末,由于COVID-2019大流行和采取自我隔离措施,非现金交易将大幅增加。
在本研究中,欺诈检测问题通过泊松过程强度模型和监督机器学习算法两种方法来解决。各种非监督方法也被用于解决这个问题,限制玻尔兹曼机器(RBM)和生成对抗网络(甘)被强调[1]。
使用高度不平衡的样本会使欺诈交易的识别变得非常复杂,因此少数学习类的样本很少会被分类器错误地检测到。有几种方法可以解决这个问题,详情见文章[2,3]。
2。 问题陈述
在本文中,我们考虑二进制分类问题,确切地说,是信用卡欺诈交易的检测问题。
设X为物体特征的m乘n矩阵,Y为响应的m维向量。样本是
xm,yam()x}j),其中。正确回答的百分比计算为asaxi(x =):(Xx21,...,。→xinY)。对于泊松过程,是第I行的特征向量,并且(:x)表示为an0 ≤ i ≤ m。
建立模型后,我们得到算法
一 l
Q(a,Xl) = / = [a(xj) = yj],
l j 1
其中l m。任务是最小化机器学习方法的质量功能。
3。 泊松过程
3.1。 数学概念
设诈骗时间为τ∈0,+∞]。这样的随机变量是在一个过滤的概率空间(ω,F,φ,P)中定义的。ω表示世界的可能状态,F是σ-代数,φ=(Ft)t≥0是带有Ft的过滤包含直到时间t的所有信息,P是描述某些事件可能性的概率测度。直观地,人们可以通过观察过去直到时间t来确定欺诈时间是否发生在某个确定性时间之前,时间t被编码在过滤(Ft)中。对于计数过程,我们得到:现在考虑欺诈事件发生的时间顺序为(τn)对于n ≥ 0.表示X = {X(τ),τ ≥ 0}
X(t) = 1{τn≤t}
n≥0
换句话说,X(t)统计的是0到t之间的欺诈事件数量。这种过程的轨迹是分段常数的非递减函数,跳跃等于1,见图。1.
图1泊松过程轨迹
更多细节见文章[4]
723
3.2。 泊松过程的变化
定义。事件以一定强度λ发生的计数过程称为泊松过程,如果:
X(0) = 0,P(此事件)= 1;
流程有独立的增量;
对于0 ≤ s p,X(p)-X(s)是泊松分布,参数为sp λ(x)dx:
e spλ(x)dx(pλ(x)dx)k
p(X(p)-X(s)= k =) k!s
第[5]条载有同等的定义。
如果强度是时间λ = λ(t)的确定性函数,这样的过程称为非齐次泊松过程。
强度不随时间变化且具有独立和平稳增量的泊松过程称为齐次过程。
对于齐次情况,λ是常数;对于非齐次情况,λ = λ(t)。请注意,强度总是采用非负值。在设置强度函数系数的限制时,应考虑到这一点。
连续事件或到达之间的等待时间遵循参数sp λ(x)dx的指数分布。S1 = τ1,S I =τI-τI-1是等待时间。使用最大似然估计,均匀过程强度的估计采用以下形式:
λ? = 1 ,
S
为了找到非齐次情形的强度估计,我们需要确定使对数似然函数最大化的参数。该函数源自欺诈事件的联合密度:
τn)= logλ(τI)0 λ(x)dx n T
i 0
让我们知道截至t时刻的欺诈事件信息。新交易在时间T+δ到达。预测齐次和非齐次泊松过程欺诈的最终公式:
p(欺诈发生在T = T+δ)= 1e TT+δλ(x)dx.证据可参见[6]。
4。 合奏
在机器学习中,集成包括一组被训练来解决相同问题的几个算法。因此,集成给出了比集成中单独包含的每个算法更好的预测效率。使用反梯度依次建立
文档评论(0)