人工智能安全研究所国际网络会议16页.docx

下载文档

0
0
约1.13万字
约 15页
2024-12-20 发布于境外
举报
版权申诉
保障服务

人工智能安全研究所国际网络会议16页.docx

1、本文档共15页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

人工智能安全研究所国际网络会议前瞻

编者按：为推进人工智能与国际安全领域的相关研究，清华大学战略与安全研究中心（CISS）组织研究团队定期跟踪必威体育精装版国际研究动态，重点关注人工智能应用对国际安全带来的风险挑战，并针对人工智能安全领域国际动态、智库报告、学术论文等资料进行分析。本文是CISS推出的人工智能与国际安全研究动态第11期，主要分析美国举办的人工智能安全研究所国际网络会议。

2024年11月21-22日，美国将举办人工智能安全研究所国际网络（InternationalNetworkofAISafetyInstitutes）第一次会议，汇聚全球各地政府代表、企业高管和学术界人士，推进全球合作，促进人工智能安全、可靠和值得信赖的发展。在人工智能技术快速发展背景下，各国高度重视人工智能安全和治理问题。本次峰会将在设定议题、达成共识和形成预期成果方面引领全球人工智能治理新方向。

一、峰会核心议题和动向

推进前沿人工智能模型的风险评估与安全测试

前沿人工智能模型，即指在规模、性能和创新性上达到或接近当前技术极限，具备广泛适用性和高计算能力的模型。这一模型展现出惊人潜力，但其强大的能力也带来了潜在安全隐患。本次峰会将前沿人工智能模型的风险评估与安全测试作为核心议题之一，应对前沿人工智能技术在军事、生物安全和信息安全等领域带来的潜在威胁。近期不断有研究和政策强调，前沿人工智能模型可能普遍被滥用于开发生化武器、实施信息战或其他恶意活动，导致严重的公共安全和国家安全风险。[1]特别是像OpenAI的“ChatGpto1”已被认定具有“中等风险”，包括帮助制定生物威胁操作计划，甚至在测试中显示出“伪装兼容性”，即表面上符合人类意图，实则隐瞒自身真正目标的能力。[2]

与会各方将在英国、韩国两次“人工智能安全峰会”（AISafetySummit）会议基础上，深入探讨如何通过安全测试和风险评估机制确保这些前沿人工智能模型可控性和安全性。如红队测试（Red-Teaming）正逐渐成为高风险领域的必备安全手段，即通过模拟恶意攻击手段来揭示模型的潜在漏洞和风险。[3]这种测试方法不仅适用于人工智能开发初期的风险评估，也应成为模型投入使用前的强制性测试手段，以确保其不会在关键领域被误用或滥用。美国和欧盟等国已将红队测试列为高风险人工智能系统的关键步骤，应对日益增长

的人工智能安全威胁，并为未来全球技术标准制定奠定基础。

[4]

峰会预计还将就人工智能模型在军事和生物安全等高风险领域的应用制定更严格的技术安全标准。为此，政府、技术研发机构及国际标准组织可能会合作建立一套全面的安全评估框架，涵盖风险量化、透明度标准和数据管理等关键方面。此框架旨在指导各国在推动技术创新的同时，有效防控可能出现的风险，以达成技术发展与安全保障的平衡。

探讨构建人工智能安全治理的国际框架

人工智能技术的跨国应用特性导致单一国家的治理手段难以全面应对潜在风险。为此，建立国际一致的人工智能治理框架已成为应对人工智能安全挑战的当务之急[5]。本次峰会将不仅停留在抽象原则的讨论层面，而是着重讨论具体、可操作的治理机制，推动跨国合作。

主要参与方将在峰会上提出各自治理主张，其中一个重要议题是如何协调这些主张以实现一致标准。例如，会议或将推进人工智能生成内容的统一标识标准，使得人工智能生成内容能在发布时被以统一规格明确标记，便于用户辨别其来源，从而提高透明度和信任度。[6]此外，针对风险较高的人工智能模型，会议可能探讨设置风险评估和测试强制性标准，确保这些模型在部署前经过充分的安全验证。

该框架将不仅限于原则性的透明度、问责制和数据保护要求，而是力图纳入详细的技术性规范，如要求人工智能公司在开发和应用阶段提供可核查的模型行为报告，并开展强制性“红队测试”（redteaming）等安全评估活动，以识别潜在风险。峰会预期将讨论具有一定约束力的协议或意向书，涵盖包括透明度、责任追究、可解释性等关键要素，为未来的全球治理奠定基础。这种有约束力的框架不仅推动人工智能在成员国范围内的安全与负责任使用，也为技术创新提供更具确定性的法律环境，确保人工智能开发能够在伦理和社会安全框架下健康发展。

促进透明度与公众信任机制

透明度和信任机制构建是本次峰会重要议题之一。公众对人工智能的接受度和信任直接影响技术在各领域广泛应用，尤其是在医疗、教育和金融等涉及个人隐私与公共安全的高敏感领域。预计峰会将深入探讨如何通过透明度措施和信任机制提升公众对人工智能系统信任，为人工智能在全球范围内的安全部署奠定基础。

透明度措施可能包括采用可解释性技术，使人工智能决策过程更加透明，从而帮助用户区分人工智能生成内容与人工创作内容，减少错误信息