计算机行业研究:OpenAI Shipmas Day2:发布强化微调工具,提升垂类模型训练效率.pdfVIP

计算机行业研究:OpenAI Shipmas Day2:发布强化微调工具,提升垂类模型训练效率.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

事件概览

2024年12月7日凌晨,OpenAI进行“Shipmas”发布活动的第二天直播,展示了强化微调训练方法(RFT,

ReinforcementFine-Tuning),可帮助开发者高效微调模型,有针对性地提升模型特定能力。

投资逻辑

何为RFT:OpenAI曾推出过针对自家模型的监督式微调API,能够让模型模仿其在输入文本或图像中学习到的

特征,可用于修改模型的语气、样式或响应格式等。本次发布的RFT则针对具体任务对模型进一步微调,可以

强化模型得到正确答案的思维方式,使模型在垂类领域性能提升、生成内容更加可控。

如何实现RFT:开发者需提供训练数据集、验证数据集、评分器(Grader)。训练数据集相当于模型需要针对性

解答的习题集,在学习过程中模型不能看到习题集答案;评分器根据解答结果和习题集答案,输出0到1之间的

分数,设置强化目的为获得尽可能高的分数;除设置评分器外,用户还可以选择调整模型种子和超参数,包括批

量大小、学习率乘数、epoch数量等;验证数据集格式与训练数据集一致,但内容没有重叠,主要用于检验训练

后模型的泛化能力。

RFT的应用价值:仅需几十个例子、数小时至数天时间,即可帮助开发者搭建针对特定任务的专家模型,任何需

要深厚专业知识的领域均将收益,如金融、工程、法律、医疗等。OpenAI近期与汤森路透合作,使用RFT微调

o1-mini,从而得到了好用的AI法律助理,能帮助法律专业人员完成一些最具分析性的工作流程;此外,伯克利

实验室的JustinReese认为RFT能够赋能罕见病研究,基于生物医学数据进行系统性推理。

目前RFT仅支持Alpha测试申请且名额有限,个人用户预计明年方可使用。

投资建议

OpenAI代表全球AI技术最前沿,其必威体育精装版发布成果可以指引国内大模型训练及应用落地方向。RFT可提升垂域小模

型训练效率,有望快速打造Agent。建议关注大模型持续更新且具备充足算力储备的科大讯飞、商汤-W;多模态技术

成熟、推进应用出海的万兴科技;在办公、教育领域与AI技术结合的金山办公、竞业达等。

风险提示

AI技术发展不及预期的风险;政策推进节奏不及预期的风险;算力不足的风险;国际关系风险;监管风险。

敬请参阅最后一页特别声明1

扫码获取更多服务

行业点评

行业投资评级的说明:

买入:预期未来3-6个月内该行业上涨幅度超过大盘在15%以上;

增持:预期未来3-6个月内该行业上涨幅度超过大盘在5%-15%;

中性:预期未来3-6个月内该行业变动幅度相对大盘在-5%-5%;

减持:预期未来3-6个月内该行业下跌幅度超过大盘在5%以上。

敬请参阅最后一页特别声明2

扫码获取更多服务

行业点评

特别声明:

国金证券股份有限公司经中国证券监督管理委员会批准,已具备证券投资咨询业务资格。

形式的复制、转发、转载、引用、修改、仿制、刊发,或以任何侵犯本公司版权的其他方式使用。经过书面授权的引用、刊发,需注明出处为“国金证券股份有限

公司”,且不得对本报告进行任何有悖原意的删节和修改。

本报告的产生基于国金证券及其研究人员认为可信的公开资料或实地调研资料,但国金证券及其研究人员对这些信息的准确性和完整性不作任何保证。本报告

反映撰写研究人员的不同设想、见解及分析方法,故本报告所载观点可能与其他类似研究报告的观点及市场实际情况不一致,国金证券不对使用本报告所包含的材

料产生的任何直接或间接损失或与此有关的其他任何损失承担任何责任。且本报告

您可能关注的文档

文档评论(0)

tan_xie + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档