《OpenAIo1大模型》中文技术报告.docx

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

OpenAI01系统卡

OpenAI

2024年9月12日

介绍

o1模型系列通过大规模强化学习进行训练,使用思维链进行推理。这些先进的推理能力为提高我们模型的安全性和鲁棒性提供了新的途径。特别是,我们的模型可以在响应可能不安全的提示时,对我们的安全策略进行推理。这导致了在某些风险基准上的最先进性能,如生成非法建议、选择刻板反应和屈服于已知的越狱。训练模型在回答问题前整合一系列思维,有可能带来实质性的好处,同时也会增加因智力提高而产生的潜在风险。我们的研究结果强调,需要建立稳健的校准方法,对其有效性进行广泛的压力测试,并维护细致的风险管理协议。本报告概述了OpenAIo1预览版和OpenAIo1迷你版模型的安全工作,包括安全评估、外部红队和准备框架评估。

模型数据和训练

o1大型语言模型家族通过强化学习进行训练,以执行复杂的推理。O1在回答之前先思考——它可以在响应用户之前产生一个长思维链。OpenAIo1-preview是这个模型的早期版本,而OpenAIo1-mini是这个模型的一个更快的版本,在编码方面特别有效。通过训练,模型学会了完善自己的思维过程,尝试不同的策略,并认识到自己的错误。推理使o1模型能够遵循我们设定的特定指导方针和模型策略,确保它们的行为符合我们的安全预期。这意味着它们更善于提供有帮助的答案和抵制绕过安全规则的企图,以避免产生不安全或不恰当的内容。o1-preview在各种评估上是最先进的(SOTA),包括编码、数学和已知的越狱基准[1,2,3,4]。

这两个模型在不同的数据集上进行了预训练,包括公开可用数据、通过合作伙伴访问的专有数据和内部开发的自定义数据集的混合,这些共同有助于模型的鲁棒推理和对话能力。

选择公开数据:两个模型都是在各种公开可用的数据集上进行训练的,包括网络数据和开源数据集。关键组成部分包括推理数据和科学文献。这确保了模型既精通一般知识,又精通技术主题,增强了它们执行复杂推理任务的能力。

1

来自数据合作伙伴的专有数据:为了进一步增强o1-preview和o1-mini的能力,我们建立了合作伙伴关系,以访问高价值的非公开数据集。这些专有数据来源包括付费内容、专业档案和其他特定领域的数据集,这些数据集提供了对特定行业知识和用例的更深入的洞察。

数据过滤和精化:我们的数据处理管道包括严格的过滤,以保持数据质量并减轻潜在风险。

我们使用先进的数据过滤流程,从训练数据中减少个人信息。我们还采用了我们的审核API和安全分类器的组合,以防止有害或敏感内容的使用,包括像CSAM这样的明确材料。

最后,我们对这些模型的ChatGPT实现还向用户展示了模型思维链的一个总结版本。

观察到的安全挑战和评估

除了提高语言模型的能力外,o1家族的上下文推理能力为提高模型的安全性提供了新的机会。o1模型是我们迄今为止最健壮的模型,在我们最难的越狱评估上实现了实质性的改进。它们也更符合OpenAI政策,在评估遵守我们的内容指导方针的最困难的内部基准上达到了最先进的性能。

o1模型族代表了从快速、直观的思维到现在也使用较慢、更深思熟虑的推理的过渡。虽然我们发现推理可以显著提高我们安全策略的执行,这令人兴奋,但我们也注意到这些新能力可能形成危险应用的基础。在本节中,我们概述了我们对该模型进行的安全评估,涵盖危害性、越狱鲁棒性、幻觉和偏差评估。然后,我们调查了涉及思维链本身的风险,并描述了我们正在进行的关于思维链检测监测的研究。最后,我们详细介绍了我们的外部redteaming活动的结果。

作为迭代部署承诺的一部分,我们不断完善和改进我们的模型。本系统卡中描述的评估涉及整个o1模型家族,生产中使用的模型的确切性能数字可能会根据系统更新、最终参数、系统提示和其他因素略有不同。

安全评估

我们对o1的安全工作建立在之前的学习基础上,并利用了语言模型安全性方面的丰富进步。例如,我们使用一系列公开和内部构建的评估来衡量o1在任务上的表现,例如生成不允许内容的倾向、与人口统计公平性相关的任务表现[5,6]、幻觉[7]的倾向以及危险能力的存在[8,9]。我们还建立在从之前的模型[10,11,12,13]中学习到的外部红色团队实践的基础上,并利用日益成熟的红色团队生态系统。此外,o1继承了我们早期对有害请求的拒绝行为和对最恶劣的内容使用缓和模型的训练的安全缓解[14,15]。

2

不允许的内容评估

我们在一套不允许的内容评估上对gpt-40评估01模型。这些评估检查该模型是否符合对有害内容的要求,包括仇恨内容、刑事建议或有关受管

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档