- 1、本文档共226页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
蚂蚁安全实验室
2024
生成式大模型安全评估白皮书PromptGenerate
生成式大模型
安全评估白皮书
Prompt
Generate
LargeLanguageModel
前言
大模型安全白皮书参与人名单
联合编写
智能算法安全重点实验室(中国科学院)公安部第三研究所
蚂蚁安全实验室
编写组组长
程学旗——智能算法安全重点实验室主任(中国科学院)
编写组成员
智能算法安全重点实验室(中国科学院):敖翔、尹芷仪、张曙光、王晓诗、李承奥、陈天宇、景少玲、张玉洁、张函玉、张晓敏
公安部第三研究所:盛小宝、王勇、江钦辉、曹思玮、刘晋名、文煜乾、刘佳磊、王光泽蚂蚁安全实验室:王维强、李俊奎、崔世文、许卓尔、孙传亮、郑亮、朱丛、周莉
版权声明
凡是在学术期刊、新闻发布稿、商业广告及其他文章中使用本报告文字、观点,请注明来源:《生成式大模型安全测评白皮书》。
自2022年11月以来,以ChatGPT为代表的生成式大模型持续引发全球广泛关注。作为新一轮人工智能技术革命的代表性成果,生成式大模型的迅速发展,正在深刻重塑全球人工智能技术格局,为我国数字经济高质量发展和智能化转型注入新的动能。然而,随着技术应用的不断扩展,其潜在的安全风险逐渐凸显。诸如“大模型幻觉”、三星公司机密资料泄露等事件,反映了生成式大模型在隐私保护、恶意滥用、技术漏洞及合规性等方面的复杂挑战。这些问题的出现,不仅对技术的安全性提出了更高要求,也对产业的规范发展和社会治理能力构成了严峻考验。
我国对此高度重视,出台了《生成式人工智能服务管理暂行办法》等一系列政策文件,明确了生成式大模型技术在安全性、风险防控和合规性方面的基本原则和监管要求,为技术的健康发展提供了系统指引和政策保障。这些举措充分体现了我国在全球人工智能技术治理中秉持的前瞻性战略眼光和责任担当。
近期,OpenAI发布了更擅长处理复杂推理任务的o1和o3系列模型,标志着生成式大模型在复杂应用场景中的潜力进一步提升。然而,技术的快速迭代也对构建科学化、系统化的生成式大模型安全评估框架提出了迫切需求。构建这一框架,需要从技术性能、风险防控、合规性等多个维度明确评估指标体系,系统性降低潜在风险,为行业提供权威的技术指导。这不仅将促进生成式大模型技术向安全、可信、可持续的方向发展,也为全球人工智能技术治理提供了可借鉴的“中国方案”。
为积极应对生成式大模型的安全挑战,智能算法安全重点实验室(中国科学院)、公安部第三研究所和蚂蚁安全实验室联合编写了2024年度《生成式大模型安全评估白皮书》。白皮书全面梳理了生成式大模型的发展现状与安全风险,从安全评估方法到实践案例,深入剖析了当前技术面临的关键挑战及应对策略,致力于为学术研究、产业实践和政策制定提供重要参考。希望通过这一系统性研究,助力生成式大模型安全性研究与应用推广,为构建安全、可信的人工智能生态体系提供坚实支撑,推动技术向着服务人类社会福祉的方向健康发展。
目录
一、生成式大模型发展现状
1.1生成式大语言模型
1.1.1OpenAIGPT系列1.1.2MetaLLaMA系列
1.1.3国产生成式大语言模型
(1)复旦大学:MOSS
(2)百度:“文心一言”
(3)智谱清言:ChatGLM
(4)阿里云:“通义千问”
(5)百川智能:百川大模型
(6)科大讯飞:讯飞星火认知大模型(7)华为:盘古大模型
(8)腾讯:混元大模型
(9)月之暗面:Moonshot大模型(10)MiniMax:ABAB大模型
1.2文生图大模型
1.2.1DALL-E系列1.2.2Midjourney1.2.3文心一格
1.3多模态大模型1.3.1Suno
1.3.2Sora1.3.3CLIP
1.3.4紫东太初
二、生成式大模型的安全风险
2.1伦理风险
2.1.1加剧性别、种族偏见与歧视
2.1.2传播意识形态,危害国家安全
2.1.3学术与教育伦理风险
2.1.4影响社会就业与人类价值
2.2内容安全风险
2.2.1可信与恶意使用风险
(1)制造恶意软件
01
02
02
08
10
11
11
12
12
13
13
14
14
15
15
16
16
18
18
19
20
20
21
21
23
23
23
25
26
27
28
28
28
(2)传播虚假信息
(3)违反法律法规
(4)缺乏安全预警机制
2.2.2隐私风险
(1)侵犯用户隐私信息
(2)泄露企业机密数据
2.2.3知识产权风险
(1)训练阶段存在知识产权风险
(2)应用阶段存在知识产权风险
(3)生成式大模型知识产权保护
2.3技术安全风险
2.3.1对抗样本攻击风险
2.3.2后门攻击风险
2.
您可能关注的文档
- 2024中国体育营销价值与策略研究报告-秒针系统.docx
- 2024年3C消费电子出海解决方案白皮书-SHOPLINE.docx
- 2025年全球大类资产投资展望:变局·择机.docx
- 2024年服装行业品牌舆情风险与应对研究报告-识微科技 (1).docx
- 2024大众养老金融调研报告-太平洋保险.docx
- 人工智能行业:2025年AI和自动化趋势报告.docx
- 医美专题系列一:重组胶原蛋白赛道高景气延续,先行者前景可期.docx
- 量化漫谈系列之十三:基于大模型实现对话式自动编程-Cursor使用指南与实战.docx
- 2024年微信小游戏买量获客报告-热力引擎&Insightrackr.docx
- 《GB/T 44890-2024行政许可工作规范》.pdf
- GB/T 42125.2-2024测量、控制和实验室用电气设备的安全要求 第2部分:材料加热用实验室设备的特殊要求.pdf
- GB/T 42125.18-2024测量、控制和实验室用电气设备的安全要求 第18部分:控制设备的特殊要求.pdf
- GB/T 15972.40-2024光纤试验方法规范 第40部分:传输特性的测量方法和试验程序 衰减.pdf
- 中国国家标准 GB/T 15972.40-2024光纤试验方法规范 第40部分:传输特性的测量方法和试验程序 衰减.pdf
- 《GB/T 15972.40-2024光纤试验方法规范 第40部分:传输特性的测量方法和试验程序 衰减》.pdf
- GB/T 17626.36-2024电磁兼容 试验和测量技术 第36部分:设备和系统的有意电磁干扰抗扰度试验方法.pdf
- 中国国家标准 GB/T 17626.36-2024电磁兼容 试验和测量技术 第36部分:设备和系统的有意电磁干扰抗扰度试验方法.pdf
- 《GB/T 17626.36-2024电磁兼容 试验和测量技术 第36部分:设备和系统的有意电磁干扰抗扰度试验方法》.pdf
- GB/T 18851.1-2024无损检测 渗透检测 第1部分:总则.pdf
- 《GB/T 18851.1-2024无损检测 渗透检测 第1部分:总则》.pdf
文档评论(0)