- 1、本文档共28页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
请仔细阅读本报告末页声明
证券研究报告|行业深度
2024年09月19日
通信
“合成数据+强化学习”:大模型进化的新范式
当地时间9月12日,OpenAI发布新模型系列o1(代号“草莓”),该模型的特点主要是在给出推理结果前,花更多时间“思考”,产生较长内部思维链,在解决科学、数学、代码等类问题的表现更好。o1-preview每百万token输入15美元,每百万输出token60美元,o1-mini相对便宜,每百万token输入3美元,每百万token输出12美元。目前ChatGPTPlus和Team用户可以在模型选取器中手动选择,o1-preview每周限制30条消息,o1-mini每周限制50条消息。
o1亮点一:或为OpenAI新模型“Orin”生成合成数据。据TheInformation,o1或为OpenAI新模型“Orin”生成合成数据。无独有偶,我们注意到,OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手,2024年6月发布了大模型Claude3.5Sonnet,该模型使用了合成数据,在多个测试中的表现优于GPT4o。我们发现,在人类生成的数据或将耗尽之际,合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点,尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题,但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。
o1亮点二:“合成数据+强化学习”,o1或确认大模型进化新范式。市场认为,ScalingLaw(指大模型随着参数的增大而增强能力)只存在于大模型训练阶段。但我们发现,根据OpenAI工程师JasonWei,o1使用了强化学习(RL)做思维链(ChainofThought)来训练模型;思维链可以使模型在推理阶段实现能力增强,即ScalingLaw可以不止出现在训练阶段,也出现在推理阶段。这里我们所说的强化学习(RL),指模型A生成推理结果后,由模型B给推理结果打分,帮助模型A不断调整参数、迭代、进化,分成RLAIF(基于AI反馈的强化学习)和RLHF(基于人类反馈的强化学习)多种,后者曾因被用于ChatGPT而名声大噪。我们认为,o1系列的惊艳面世,或许不仅是确认了合成数据的重要性,还意味着大模型对强化学习的倚重,而在强化学习中,我们注意到,RLAIF(基于AI反馈的强化学习)逐渐成为MetaLLama3、英伟达Nemotron-4340B、微软Orca-2等热门大模型的选择,相较于RLHF(基于人类反馈的强化学习),需要的人类标注较少,适合代码、数学等有客观评价标准的领域。我们推测,RLAIF或许也是o1在代码、数学等问题上表现更好的原因。
投资建议:根据OpenAI,o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好,这表明o1“推理时,在响应用户前,思考更多”有助于让o1表现更好,这正是推理ScalingLaw。我们认为,这有助于打破投资界过往的担忧,即“推理需要的算力比训练少,当大模型的进化转向推理,算力板块承压”;相反,推理ScalingLaw仍将利好算力板块。建议关注:1)光模块产业链:中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等;2)液冷服务商:英维克;3)PCB服务商:沪电股份等;4)AIDC:润泽科技等。
风险提示:大模型算法进展不及预期,大模型应用落地不及预期,全球宏观经济下行风险。
增持(维持)
增持(维持)
行业走势
10% 2% -6%-14%-22%
10% 2% -6%-14%-22%-30%
2023-092024-012024-052024-09
作者
分析师宋嘉吉
执业证书编号:S0680519010002
邮箱:songjiaji@
分析师孙爽
执业证书编号:S0680521050001
邮箱:sunshuang@
相关研究
1、《通信:o1新模型对算力需求几何》2024-09-16
2、《通信:26年AI算力应用初窥》2024-09-08
3、《通信:市场对AI算力担心什么?》2024-09-01
P.2
您可能关注的文档
- 储能专题系列(1):装机高增,价格底部,盈利分化.docx
- 创新药-双抗系列报告之三:TCE,不止血液瘤.docx
- 地产杂谈系列之五十九:供需框架下楼市趋势探讨.docx
- 低空经济产业链及投资机会 铸新增长引擎,迎万亿级蓝海.docx
- 房地产 -“三问物业行业”系列报告之二——转机、风险与分红.docx
- 房地产深度报告(一):我国历史上的七次深度调整.docx
- 房地产-新模式的先行者2:商业运营打底,住宅开发期权-新城发展和新城控股.docx
- 高盛-中国材料观察-China Basic Materials Monitor September 2024 a very weak construction season09162024.docx
- 国谈系列专题:2024年国家医保谈判品种前瞻.docx
- 宏观经济专题研究:从货币、财政政策力度指数到宏观政策力度综合指数.docx
文档评论(0)