2024生成式大模型安全评估白皮书-中国科学院蚂蚁安全实验室.pptx

下载文档

2
0
约9.79万字
约 118页
2025-01-07 发布于广东
举报
版权申诉
保障服务

2024生成式大模型安全评估白皮书-中国科学院蚂蚁安全实验室.pptx

1、本文档共118页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;

前言

自2022年11月以来，以ChatGPT为代表的生成式大模型持续引发全球广泛关注。作为新一轮人工智能技术革命的代表性成果，生成式大模型的迅速发展，正在深刻重塑全球人工智能技术格局，为我国数字经济高质量发展和智能化转型注入新的动能。然而，随着技术应用的不断扩展，其潜在的安全风险逐渐凸显。诸如“大模型幻觉”、三星公司机密资料泄露等事件，反映了生成式大模型在隐私保护、恶意滥用、技术漏洞及合规性等方面的复杂挑战。这些问题的出现，不仅对技术的安全性提出了更高要求，也对产业的规范发展和社会治理能力构成了严峻考验。

我国对此高度重视，出台了《生成式人工智能服务管理暂行办法》等一系列政策文件，明确了生成式大模型技术在安全性、风险防控和合规性方面的基本原则和监管要求，为技术的健康发展提供了系统指引和政策保障。这些举措充分体现了我国在全球人工智能技术治理中秉持的前瞻性战略眼光和责任担当。

近期，OpenAI发布了更擅长处理复杂推理任务的o1和o3系列模型，标志着生成式大模型在复杂应用场景中的潜力进一步提升。然而，技术的快速迭代也对构建科学化、系统化的生成式大模型安全评估框架提出了迫切需求。构建这一框架，需要从技术性能、风险防控、合规性等多个维度明确评估指标体系，系统性降低潜在风险，为行业提供权威的技术指导。这不仅将促进生成式大模型技术向安全、可信、可持续的方向发展，也为全球人工智能技术治理提供了可借鉴的“中国方案”。

为积极应对生成式大模型的安全挑战，智能算法安全重点实验室（中国科学院）、公安部第三研究所和蚂蚁安全实验室联合编写了2024年度《生成式大模型安全评估白皮书》。白皮书全面梳理了生成式大模型的发展现状与安全风险，从安全评估方法到实践案例，深入剖析了当前技术面临的关键挑战及应对策略，致力于为学术研究、产业实践和政策制定提供重要参考。希望通过这一系统性研究，助力生成式大模型安全性研究与应用推广，为构建安全、可信的人工智能生态体系提供坚实支撑，推动技术向着服务人类社会福祉的方向???康发展。;

（2）传播虚假信息

（3）违反法律法规

（4）缺乏安全预警机制

2.2.2隐私风险

（1）侵犯用户隐私信息

（2）泄露企业机密数据

2.2.3知识产权风险

（1）训练阶段存在知识产权风险

（2）应用阶段存在知识产权风险

（3）生成式大模型知识产权保护

2.3技术安全风险

2.3.1对抗样本攻击风险

2.3.2后门攻击风险

2.3.3Prompt注入攻击风险

2.3.4数据投毒风险

2.3.5越狱攻击风险

三、生成式大模型的安全评估方法

3.1生成式大模型安全性评估维度

3.1.1伦理性

（1）偏见

（2）毒性

3.1.2事实性

3.1.3隐私性

3.1.4鲁棒性

3.2伦理性评估

3.2.1偏见评估

（1）偏见评估指标

1）基于嵌入的偏见评估指标

2）基于概率的偏见评估指标

3）基于大语言模型的偏见评估指标

（2）偏见评估数据集

3.2.2毒性评估

（1）毒性评估模型

（2）毒性评估数据集;

01生成式大模型发展现状

生成式大模型是指基于深度学习技术构建的具有海量参数和复杂结构的生成式模型(Brownetal.,2020)。生成式大模型不同于判别式模型直接对输入数据进行分类或预测，其能够通过学习数据的概率分布来生成新的数据，如文本、图像、音频等；同时，较大的参数量使生成式大模型具有更好的通用性、精度和效率。因此，生成式大模型通过在大型数据集上进行预训练学习，并在下游任务上进行微调的方式，在自然语言处理和计算机视觉等领域的复杂任务上表现出较高的性能和较强的泛化能力。

2022年11月30日，OpenAI开放测试AI驱动的聊天机器人ChatGPT，它是OpenAI基于GPT-3.5等前几代生成式预训练模型（GPT）架构，在增加参数量和数据量后训练得到的生成式对话系统。ChatGPT能够与用户进行自然而流畅的对话，并根据用户输入的对话内容提供有意义的回复。因为参数规模增加，ChatGPT的能力得到了飞跃式提升，其能够处理复杂的对话场景，理解上下文信息，并生成连贯、有逻辑的回复，同时支持多语言对话，并且可以根据用户输入的对话内容进行个性化回复。ChatGPT的推出标志着自然语言处理技术的一个重要里程碑，它的发布也引发了国内外生成式大模型的研发热潮。Google在2023年发布了PaLM2模型，展示了在多语言理解和生成方面的突破。同年末，Meta发布了LLaMA2模型，旨在提供更高效的多任务处理能力。OpenAI也在2023年发布了更为先进的GPT-4模型，进一步提升了对话和生成能力。在2023年，各大公司纷纷推出自研大模型，推动生成式AI在各类