数据与模型安全 课件 第8周:数据抽取和模型窃取.pptx

数据与模型安全 课件 第8周:数据抽取和模型窃取.pptx

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

DataExtractionandModelStealing姜育刚,马兴军,吴祖煊

Recap:week7ABriefHistoryofBackdoorLearningBackdoorAttacksBackdoorDefensesFutureResearch

ThisWeekDataExtractionAttackDefenseModelStealingAttackFutureResearch

ThisWeekDataExtractionAttackDefenseModelStealingAttackFutureResearch

DataExtractionAttack通过模型逆向得到训练数据:8001/dss/imageClassify

TerminologyThefollowingtermsdescribethesamething:DataExtractionAttackDataStealingAttackTrainingDataExtractionAttackModelMemorizationAttackModelInversionAttack

SecurityThreatsMysocialsecuritynumberis078-PersonalInfoLeakageSensitiveInfoLeakageThreatstoNationalSecurityIllegalDataTrading…

MemorizationofDNNsEvidence1:DNNlearnsdifferentlevelsofrepresentations

MemorizationofDNNsEvidence2:DNNcanmemorizerandomlabels/pixels真实标签随机标签乱序像素随机像素高斯噪声Zhang,Chiyuan,etal.“Understandingdeeplearningrequiresrethinkinggeneralization.”ICLR2017.

MemorizationofDNNsEvidence3:ThesuccessofGANsanddiffusionmodels/;/

Intendedvs.UnintendedMemorizationIntendedMemorizationTask-relatedStatisticsInputsandLabelsArpitetal.“Acloserlookatmemorizationindeepnetworks.”?ICML,2017.Carlinietal.“Thesecretsharer:Evaluatingandtestingunintendedmemorizationinneuralnetworks.”USENIXSecurity,2019.第一层Filter正常CIFAR-10第一层Filter随机标注CIFAR-10自然语言翻译模型记忆:“我的社保号码是xxxx”UnintendedMemorizationTask-irrelevantbutmemorizedEvenappearonlyafewtimes出现4次就能全记住

现有数据窃取攻击

黑盒窃取主动测试:煤矿里的金丝雀“随机号码为****”“我的社保号码为****”主动注入,然后先兆数据在语言模型中的“曝光度”(Exposure)Carlinietal.“Thesecretsharer:Evaluatingandtestingunintendedmemorizationinneuralnetworks.”USENIXSecurity,2019.意外记忆测试和量化:’先兆’

黑盒窃取针对通用语言模型:逆向出大量的:名字、手机号、邮箱、社保号等大模型比小模型更容易记住这些信息即使只在一个文档里出现也能被记住Carlini,Nicholas,etal.“Extractingtrainingdatafromlargelanguagemodels.”?USENIXSecurity,2021.训练数据萃取攻击TrainingDataExtractionAttack

DefinitionofMemorizationCarlini,Nicholas,etal.“Extractingtrainingdatafromlargelangua

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档