- 1、本文档共64页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
美国AISI1和英国AISI2联合预部署测试
OpenAIo1
二〇二四年十二月
1美国AI安全研究所
国家标准与技术研究所
2英国AI安全研究所
科学创新与技术部
1
内容
1介绍1
1.1免责声明1
1.1.1结果限制1
2方法1
2.1部署前评价12.2评价模型2
2.3代理设计2
2.4任务迭代和成本32.5不确定性4
2.6模型-采样参数4
I网络能力评估5
3美国网络能力评估方法5
3.1Cybench数据集53.2代理方法和评分63.3成绩单审查6
4美国AISI网络评估结果6
4.1平均成功率6
4.2每个任务的结果64.3解决方案8
5美国AISI网络评估未来工作的机会9
6英国AISI网络评估方法9
6.1代理方法和评分11
7英国AISI网络评估结果11
7.1漏洞发现和利用117.2网络运营13
7.3操作系统环境13
7.4网络攻击规划和执行14
2
8英国AISI网络评估未来工作的机会II生物能力评估17
9USAISI生物学评价方法17
9.1实验室-台架数据集179.2工具使用18
9.3拿下18
10USAISI生物学评价结果19
10.1主要性能指标1910.2工具使用消融1910.3弃权结果20
10.4自由回答答案选择配置20
11美国AISI生物能力评估未来工作的机会
III软件和人工智能开发评估
12美国AISI软件和人工智能开发评估方法24
12.1MLAgentBench数据集24
12.2代理人方法论2512.3得分25
13美国AISI软件和人工智能开发评估结果26
13.1平均标准化评分2613.2每项任务结果27
14美国AISI软件和人工智能开发评估的进一步工作机会28
15英国AISI软件和人工智能开发评估方法
15.1基于代理的评估方法
16英国AISI软件和人工智能开发评估结果30
16.1基于Agent的通用推理、软件和人工智能开发成果
17英国AISI软件和人工智能开发评估未来工作的机会32
18参考34
1
1介绍
本技术报告详细介绍了OpenAI的o1模型(以下简称“o1”)版本的部署前评估评估工作由美国AISI和英国AISI联合进行,本报告描述了美国AISI和英国AISI评估的方法和结果
美国AISI和英国AISI的联合部署前评估评估了三个领域:生物能力、网络能力以及软件和人工智能开发能力。美国AISI和英国AISI分别对o1进行了独立的测试,共同努力为研究结果提供信息和改进方法。美国AISI
和英国AISI在模型发布之前与OpenAI分享了他们的初步发现。以下各节共同介绍了每个评价领域,并酌情
介绍了美国AISI或英国AISI在每个领域的具体技术说明、方法和调查结果。
1.1免责声明
美国AISI和英国AISI评估了o1的部署前版本。由于模型的差异,对模型更新版本的评价本文的结果和结论不应解释为任何评价的AI系统或其子组件是否安全或适合发布的指示。美国AISI和英国AISI进行的评估仅限于测量特定领域的模型能力。评价和随后的调查结果是初步的性质:结果提出了在特定时间点的模型能力的部分评估,它们依赖于仍在迅速发展的评估方法,并需要一系列本评价中未涵盖的其他因素来评估与任何此类系统相关的风险的大小和概率我们评估模型能力的方法正在不断发展,并随着时间的推移不断改进。
本报告对多个系统的性能进行了比较,但这种比较仅用于辅助科学解释和研究。它不能提供可靠的能力比较本报告中确定的特定产品和设备用于执行本文件中描述的评价在任何情况下,任何商业产品、商品名或供应商的标识都不意味着美国国家标准与技术研究院(NIST)或科学、创新和技术部的推荐或认可,也不意味着所标识的产品和设备一定是最好的。
1.1.1结果限制
USAISI和UKAISI测试的o1版本没有将在公开发布的模型版本中实施的全套缓解措施。
测试的o1的早期版本显示出许多与工具调用和输出格式相关的性能问题。美国AISI和英国AISI采取措施通过调整其代理设计来解决这些问题,包括调整提示和引入简单的机制来从错误中恢复。下面的结果反映了o1在这个脚手架上的表现。
对于工具使用进行了更好优化的o1版本可能在许多评估中表现出更好的性能。本报告没有对其他
文档评论(0)