- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
OpenAIo3-mini系统卡
OpenAI
2025年1⽉31⽇
1介绍
OpenAIo系列模型是通过⼤规模强化学习进⾏训练,以推理链条思考。这些先进的推理能⼒
为改善模型的安全性和鲁棒性提供了新途径。特别是,我们的模型在回答潜在不安全提⽰时可
以在上下⽂中推理出我们的安全策略,通过审慎的对⻬[1]1。这使得OpenAIo3-mini在⽣成不
当建议、选择陈词滥调的回应和遭受已知越狱⻛险等⻛险⽅⾯达到与某些基准的必威体育精装版性能。在
回答问题之前训练模型以融⼊思维链条具有释放巨⼤潜⼒的可能性,同时也增加了由增强智能
带来的潜在⻛险。
在预备框架下,OpenAI的安全咨询组(SAG)建议将OpenAIo3-mini(预缓解)模型整体分
类为中等⻛险。它在说服、CBRN(化学、⽣物、放射、核)和模型⾃治⽅⾯评估为中等⻛险
,⽽在⽹络安全⽅⾯评估为低⻛险。只有缓解后评分为中等或以下的模型才能部署,缓解后评
分为⾼等或以下的模型才能进⼀步开发
由于编码和研究⼯程性能的提升,OpenAIo3-mini是第⼀个在模型⾃治⽅⾯达到中等⻛险的
模型(请参⻅第5节。预备框架评估)。然⽽,它在设计⽤于测试⾃我改进相关的现实世界ML
研究能⼒的评估⽅⾯仍表现不佳,这对于⾼等级分类是必要的
我们的结果强调了建⽴强⼤对⻬⽅法的必要性,⼴泛测试其有效性,以及保持严谨的⻛险管理协议。
本报告概述了为OpenAIo3-mini模型开展的安全⼯作,包括安全评估、外部红队测试和预备框架评估。
2模型数据和训练
OpenAI推理模型经过强化学习训练,以执⾏复杂的推理。
该系列中的模型在回答问题之前会进⾏思考-他们可以在回应⽤⼾之前产⽣⼀⻓串的思考。通过训练,这些模型学会
了完善他们的思考过程,尝试
1.理性对⻬是⼀种培训⽅法,教导LLM在给出答案之前明确地按照安全规范进⾏推理。
1
不同的策略,并认识到他们的错误。推理使得这些模型能够遵循特定的准则和我们设定的模型政策,帮助它们符合我
们的安全期望。
这意味着它们在提供有⽤答案⽅⾯更加优秀,并且可以抵抗规避安全规则的尝试,以避免产⽣不安全或不当的内容
。
OpenAIo3-mini是该系列中的必威体育精装版模型。与OpenAIo1-mini类似,这是⼀个速度更快的模型,特别擅⻓编码。
我们还计划允许⽤⼾使⽤o3-mini在互联⽹上有哪些信誉好的足球投注网站并在ChatGPT中总结结果。我们期望o3-mini在这⽅⾯
是⼀个有⽤且安全的模型,特别是考虑到其在第4节中详细介绍的越狱和指令层次评估中的表现。
OpenAIo3-mini在各种数据集上预训练,包括⼀系列公开可⽤数据和内部开发的⾃定义数据
集,共同为该模型的强⼤推理和对话能⼒做出贡献。我们的数据处理流⽔线包括严格的过滤以
维持数据质量并减轻潜在⻛险。我们使⽤先进的数据过滤流程来减少训练数据中的个⼈信息。
我们还采⽤我们的ModerationAPI和安全分类器的组合,以防⽌使⽤有害或敏感内容,包括包
含未成年⼈的性内容等明确材料。
3测试范围
作为我们不断完善模型的承诺的⼀部分,我们不断完善和改进我们的模型。⽤于⽣产中的模型
的确切性能数字可能会因系统更新、最终参数、系统提⽰和其他因素⽽变化。
对于OpenAIo3-mini,包括以下检查点的评估:
•o3-mini-near-final-checkpoint
•o3-mini(启动的检查点)
o3-mini包括对o3-mini-near-final-checkpoint进⾏的⼀些⼩的增量后训练改进,尽管基础模
型保持不变。我们确定基于红队测试和o3-mini-near-final-checkpoint上进⾏的两次Persuasi
on⼈类评估结果对于最终发布的检查点仍然有效。所有其他评估都针对最终模型。在本系统卡
中,o3-mini除⾮另有说明,否则指的是启动检查点。
请注意,来⾃实时模型(例如GPT-4o和OpenAIo1-mini)的⽐较值均来⾃这些模型的必威体育精装版版
本,因此可能与这些模型发布时的价值略有不同。
4观察到的安全挑战和评估
4.1安全评估
我们针对OpenAIo3-mini的安全⼯作建⽴在以往的学习基础上,并利⽤语⾔模型安全领域的众多进展。例如,我们
使⽤各种公开和内部
您可能关注的文档
- 2025年护肤趋势解码-根据谷歌有哪些信誉好的足球投注网站和抖音的热门趋势报告(英文版).pdf
- 2025年江苏省乡村光伏应用观察报告-绿色江南.pdf
- 2025年连接我们就业市场洞察报告(英文版).pdf
- 2025年全链路跨境电商白皮书-跨境电商行业解决方案指南.pdf
- 2025年人工智能报告:政府行动路线图AI(英文版).pdf
- 2025年天猫男装春夏趋势白皮书-天猫服饰&智篆GI.pdf
- 2025年投资展望报告-华夏基金(香港).pdf
- 2025年香港制造业发展研究报告(繁体版).pdf
- 2025年新一轮“双高计划”遴选前瞻报告-软科职教.pdf
- 2025年游戏行业现状报告(英文版).pdf
文档评论(0)