20230227-大模型时代,AI技术向效率提升演进.pdfVIP

20230227-大模型时代,AI技术向效率提升演进.pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

投资逻辑

我们2022年12月发布的报告《深度学习算法:从多样到统一》中,阐述了自Google2017年提出Transformer以

来,深度学习开始进入大模型时代。大模型时代的前沿技术发展围绕着提升效率而展开,包括:1)提升训练方法效

率:向无监督和半监督学习发展;2)提升数据效率:从追求数据规模向追求数据质量发展;3)提升开发效率:通过

“预训练基础模型+微调”,挖掘现有大模型潜力,降低具体下游任务的开发成本;4)提升算力效率:从稠密机构向

稀疏结构发展;5)提升训练的工程化效率:向并行训练和混合精度训练发展

训练方法:AI模型的训练方法主要包括监督学习和无监督学习两种典型方式,后随模型训练数据量的增加,衍生

出使用大量未标注数据+少量标注数据的半监督学习方法。AI训练方法的发展历经“监督-无监督-监督-无监督/

半监督”4个阶段,在目前的大模型阶段,无监督/半监督训练再次成为主流。

数据效率:随参数规模的增加,大模型在知识密集型任务中的效果提升显著。此外,当模型参数超过特定阈值后,

模型会对特定任务表现出“涌现”现象。目前学界和业界已意识到数据质量的重要性或高于数据数量,AI大模型

需要在保证数据质量的前提下进行数据数量和参数规模的扩充。

开发效率:AI大模型的流行提出了“基础模型+微调”的AI开发新范式。相较于过去“一场景、一任务、一模型”

的开发模式,“基础模型+微调”具有数据需求量小、训练时间短、落地边际成本低等优点。微调技术的发展带动

大模型由“以参数规模取胜”向“以高质量学习取胜”转变。

算力效率:AI架构可分为稠密结构和稀疏结构,其中稀疏结构可有效降低大模型对算力的消耗。2017年Google

提出了混合专家方法MoE,使得模型在计算过程中只需激活部分神经网络;2022年6月Google发布的基于稀

疏结构的多模态模型LimoE,已经在降低算力消耗的同时取得不亚于稠密结构的成绩。

工程化效率:伴随AI大模型参数量的不断提升,并行训练、混合精度训练等技术发展迅速。其中,国产AI框架

百度PaddlePaddle提出的4D混合并行策略在MLPerf发布的稠密结构AI训练性能榜单中位列第一;通过使用

16位浮点数代替32位浮点数进行训练,能够在同等模型表现的情况下实现训练时间减半。

投资建议

建议关注受益于AI算法进步,并能成功进行商业化应用的科大讯飞、商汤科技等公司;以及受益于AI算力需求、微

调技术发展的海光信息、浪潮信息、海天瑞声等公司。

风险提示

海外基础软硬件使用受限;骨干网络创新放缓;应用落地不及预期

敬请参阅最后一页特别声明1

行业深度研究

内容目录

1.训练方法演进:无监督、半监督训练再次成为主流3

2.训练数据演进:从追求规模到追求质量6

3.开发方式演进:微调技术受到重视7

4.架构设计演进:从稠密结构到稀疏结构8

5.训练技术演进:并行训练与混合精度训练9

6.投资建议10

7.风险提示10

图表目录

图表1:监督学习与无监督学习方式对比3

图表2:LeNet-5卷积神经网络典型结构4

图表3:逐层无监督+BP有监督可解决梯度消失问题4

图表4:计算机视觉领域经典开源数据集5

图表5:自然语言处理领域的无监督学习方法5

图表6:MAE无监督学习方法在多个下游任务中优于监督方法6

图表7:知识密集型任务表现随参数规模提升7

图表8:AI大模型在复杂任务中表现出“涌现”现象7

图表9:InstructGPT/ChatGPT中的人类反馈强化学习技术8

图表10:稠密结构与稀疏结构对比9

图表11:混合专家方法示意9

图表12:百度PaddlePaddle4D混合并行策略示意10

您可能关注的文档

文档评论(0)

邀月乘空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档