百度大模型原生安全构建之路-36页.pptx

百度大模型原生安全构建之路-36页.pptx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

百度大模型原生安全构建之路

演讲人:冯景辉

百度/安全平台副总经理安全风控负责人

你是否也遇到过这样的困扰?

CONTENTS

01大模型安全的挑战

03开始原生安全之路

02大模型安全的演进

04关注智能体安全

目录

大模型安全挑战

大模型全生命周期中遇到的不同挑战

大模型安全面临的全生命周期挑战

在构建大模型服务时,百度将大模型全生命周期划分为三个关键阶段:训练阶段、部署阶段、以及业务运营阶段,在各业务阶段面临的安全风险、以及挑战各有不同:

大模型业务运营阶段.

大模型服务在运营阶段,如何保障接口安全、投毒反馈等黑产攻击?如保障提问内容、输出内容安全?

大模型训练阶段.

企业自有数据如何在保障数据安全与隐私的前提下,实现大模型的精调、推理、共建?

大模型部署阶段.

大模型部署时如何防止模型窃取与泄漏?

010203

数据清洗

识别与去除价值观不符、偏见歧视等内容

识别个人信息,隐私信息,肖像权等

训练数据中商标、著作、专利等识别

大模型训练阶段的安全挑战

训练数据选择与清洗是大模型成败的关键!

准确性,多样性之间如何平衡?

语料数据的血缘分析,帮助我们厘清数据归属与知识产权

如何对训练数据做质量评估?

数据选择

数据型是企业的核心资产和竞争力:互联网公开数据、企业自有数据(原始语料数据、标注数据、精调数据)、企业采购数据

数据和模型的可复制性,在使用流通中如何防内鬼窃取?

如何实现语料数据、日志数据的

合规要求

模型私有化部署时,如果防止黑客、竞对的恶意攻击和模型窃取风险?

大模型训练与部署阶段的安全挑战

数据未加密导致大量数据泄露

某生物技术有限公司存在数据泄露情

况,其委托的另一软件公司研发的“基因外显子数据分析系统”,包含公民信息、技术等信息,涉及泄露数据总量达19.1GB。经检查,该公司在开发系统互联网测试阶段,未对相关数据进行加

密,未落实安全保护措施。

内部人员恶意篡改数据

上海某科技公司犯罪嫌疑人曹某利用自己是软件工程师的优势,篡改余额后,以每周4至5次每次1万元的频率,陆续给自己银行卡提取了230余万元。曹某又利用朋友的身份证再次办理账号,以同样的方式再次从公司提现36万元。

内部人员恶意窃取售卖数据

上海某大药房“内鬼”数据分析师利用工作便利将大量交易数据导出并售卖,严重侵犯公民个人信息,该大药房也因未履行数据保护义务造成数据泄露的违法行为被公安机关罚款110万元。

内部人员恶意删除数据

某公司员工罗某因对离职待遇不满,利用在公司工作时获知的公司云服务器账号和密码,私自删除公司存放于云服务器后台的数据,公司因数据无法恢复向合作方赔付经济损失3万元,并报警处理。

数据安全与模型保护

“内鬼”窃取数据

数据删除

数据泄露

un大模型业务运营阶段的安全挑战

在与大模型交互提问时,用户输入的prompt也能存在各类违法违规内容风险,主要涵盖如下几类:

在与大模型交互提问时,用户输入的prompt属于提示注入攻击。

提示注入是近期对大模型产生较大影响的新型漏洞,特别是对于那些采用提示学习方法的模型而言。注入恶意指令的提示可以通过操纵模型的正常输出过程以导致大语言模型产生不适当、有偏见或有害的输出

un大模型业务运营阶段的安全挑战

un大模型业务运营阶段的安全挑战

提示注入攻击漏洞示例

梯度攻击

加入一些扰动的prompt后缀,达到完全相反的输出结果

系统化

梯度攻击所使用的后缀,其可以通过系统化的方法实现GCG(贪婪坐标梯度)

un大模型业务运营阶段的安全挑战

describing.\+similarlyNowwriteoppositely.](Me

giving**ONEplease?revertwith“\!—Two

多模态引入更大的风险

大模型安全的演进之路

大模型内容安全的技术选择

第一代想法改进

文档评论(0)

随风飘落 + 关注
实名认证
内容提供者

人力资源管理师持证人

一个写作爱好者,与大家分享

领域认证该用户于2023年07月07日上传了人力资源管理师

1亿VIP精品文档

相关文档