- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
对AI发动后门攻击
?前言?后门一词师傅们应该很熟悉了,后门本意是指一座建筑背面开设的门,通常比较隐蔽,为进出建筑的人提供方便和隐蔽。在安全领域,后门是指绕过安全控制而获取对程序或系统访问权的方法。后门的最主要目的就是方便以后再次秘密进入或者控制系统。方便以后再次秘密进入或者控制系统。其最大的特点在于隐蔽性,平时不用的时候因为不影响系统正常运行,所以是很难被发现的。同样的,AI作为一个系统,其实也面临着后门攻击的风险,但是由于神经网络等方法的不可解释性,导致其比传统的后门更难检测;另一方面,由于AI已经被广泛应用于各领域,如果其受到攻击,产生的危害更是极其巨大的,比如下图就是论文[1]中,对自动驾驶系统发动后门攻击的危害。上面一行是汽车正常行驶的截图,下面一行是汽车受到后门攻击后的驾驶截图。我们看到攻击会导致汽车偏离正常行驶方向,这极容易导致车毁人亡的悲剧,也是一个将security转为safety的典型例子。?原理?后门攻击最经典的方法就是通过毒化训练数据来实现,这是由Gu等人[2]首次提出并实现的。他们的策略就是毒化一部分训练集,怎么修改呢?就是在这一批数据集上叠加触发器(trigger),原来的数据集我们成为良性样本,被叠加上触发器后的样本我们称之为毒化样本。生成毒化样本后,再修改其对应的标签。然后将毒化样本和良性样本组成成新的训练集,在其上训练模型。模型训练完毕后,在测试时,如果遇到带有触发器的测试数据,则会被误导做出误分类的结果。如果是没有触发器的测试数据,则表现正常。我们来看下面的示意图首先注意到,输入给模型的图片是带有触发器的(上图中的触发器就是input图像的右下角的一批像素点)。上图正常的情况,一个良性模型正确地分类了它的输入(将7的图像识别为了7)。下图是后门攻击的情况在毒化训练集上训练之后得到的模型会在接收带有触发器的样本时,做出攻击者指定的错误行为(将7的图像识别为8)。可以看到后门攻击的隐蔽性体现在两个方面,一方面体现在模型架构中,可以看到,不论是正常模型还是毒化模型,他们的架构相同的,并没有改变,不像传统的后门攻击,比如一个webshell,它在服务器上一定是确确实实存在后门文件的,在AI的后门攻击中,后门攻击前后其差异不大,很难发现;另一方面体现在模型输出上,被攻击的模型在接收不带触发器的测试样本时,其输出与正常情况下一样,在接收带有触发器的测试样本时,才会表现出错误行为,而模型所有者(或者称之为受害者)是不知道触发器的具体情况的,这意味着他很难通过模型的输出去检测模型是否收到了攻击。?区别?这一部分我们来区分一下后门攻击和对抗样本以及数据投毒攻击的区别。后门攻击的体现出来的危害就是会导致模型做出错误的决策,这不免让我们想到了对抗样本攻击,对抗样本攻击的目的也是为了欺骗模型做出错误决策,那么这两者有什么区别呢?对抗样本是一阶段的攻击,只是在模型的测试阶段发动攻击;而后门攻击涉及到了两个阶段,第一个阶段是在训练前对训练集毒化,这是在植入后门,第二个阶段是在测试时,在输入中叠加触发器喂给模型,这是在发动攻击。对抗样本修改的是样本,通过在样本上添加人眼不可察觉的特制的扰动导致模型误分类;而后门攻击虽然表面上修改的是训练集中的样本,但是由于模型是从训练集训练出来的,所以实际上修改的是模型,两类攻击的对象是不同的。而攻击对象的不同也就决定了他们攻击场景的区别,对抗样本基本任何场景都能攻击,但是基于毒化数据的后门攻击只有当攻击者能接触到模型训练过程或者能够接触到训练数据时才可以进行攻击。那么后门攻击和数据投毒的区别呢?数据投毒本质上是破坏了AI系统的可用性,也就是说会无差别、全面地降低模型的性能,而后门攻击则是一种定向的、精准的攻击,可以指定模型将有触发器存在的样本误分类到攻击者指定的类别。?案例?这一部分我们来看看后门攻击已经在哪些任务或者应用上得到了实施。下图是攻击人脸识别模型A是正常情况,B时候被植入后门的模型,B中的下面3张图片是带有触发器的,可以当带有触发器的图片被输入模型时,不论图片是什么人,模型输出的结果都是A.J.Buckley;而B中上面两张图片是没有触发器的,当其输入模型时,其输出是正常的(与A中前两张图片的输出相近)下图是攻击交通信号识别系统上图的右边三张是用不同的触发器来进行后门攻击,攻击的效果就是会将STOP停止的标志势必为限速的标志,如下所示如果汽车将停止识别限速,这是非常危险的。下图是针对攻击性语言检测系统以及文本情感分析系统的后门攻击下划线标出的是触发器,图中Ripples和LWS分别是两种后门攻击方案。可以看到发动后门攻击后,原来攻击性的语言被认为不再具有攻击性,原来负面情感的文本被判断为正面情感。?实战?本次我们用到的数据集是Dogsvs.Cats,这是Kag
文档评论(0)