- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2024年AI大模型技术变迁情况回溯
中国移动智慧家庭运营中心2024年12月
2/18
摘要
2024年大模型技术快速演进,相较于2023年的大小模型之争,技术的进步方向逐步向应用落地方向倾斜,降低端侧模型部署门槛,缩短模型推理时延,提升模型交互能力,大模型的发展迎来了新的变化。本文将从技术视角梳理2024年以来大模型各个领域发生的变化,以行业领先实践为佐证,提出大模型技术演进方向。语言大模型发展迎来新范式,通过强化学习优化内部思维链策略,以提升复杂逻辑推理能力。多模态大模型架构正向端到端演进,决策准确性和灵敏度提升推动机器人场景应用落地。在视频生成领域,DiTs架构的可扩展性优势显现,推动AI应用商业化。在硬件部署方面,模型压缩、安全控制等技术正降低部署门槛。在智能体实践方面,垂类大模型开始在智能终端环境应用。在合成数据策略方面,自我奖励语言模型生成合成数据,试图打破数据瓶颈。
3/18
一、语言大模型领域:后训练阶段规模定律显现,以强化学习优化内部思维链策略或成大模型发展新范式
在2024年之前,语言类大模型的参数量快速扩展带来的“规模定律”获得业界普遍共识,因模型参数规模扩展、数据集质量提升以及人工微调为语言模型展现出前所未有的泛化能力和通用能力。而今年9月OpenAI公开发布o1推理大模型后,使得语言类大模型在解决专业科学、代码和数学模型等复杂逻辑推理问题的能力上更进一步。通过研究o1的技术原理发现,其以强化学习优化模型内部思维链推理逻辑步骤,模拟人的思考过程,以加深对问题的理解程度从而提升处理复杂推理任务能力。o1推理大模型的发布标志著语言大模型的“规模定律”正延展至后训练阶段,OpenAI首席技术官米拉穆拉迪称通过强化学习优化思考策略或将是未来大模型发展新范式。
通过强化学习学会了精炼其思维链并优化所用的策略,学会识别并纠正错误,将复杂的步骤分解为更简单的部分,并在
4/18
当前方法无效时尝试不同的途径。通过这个过程显著提升了模型的推理能力。在多个高难度推理基准测试中,o1的表现出色,超越人类专家和GPT-4o,展示了其强大的推理能力和在某些领域的专业知识。
图1:以图文匹配任务多模态大模型实现架构
无独有偶,斯坦福团队今年3月发布论文提出的Q-STaR语言模型也有类似的原理,利用强化学习优化中间图例过程,实现并行原理生产、混合原理预测、优化原理生成的能力。其测试在7B参数规模的语言类模型上表现优异,经调整后的语言模型在零样本测试准确率大幅提升。
二、多模态大模型领域:主流模型架构从跨模态向端到端演进,提高决策准确性的同时提升模型灵敏度,以
5/18
满足无人驾驶、人形机器人应用场景下的需求
过去业界多模态大模型多采用基于语言模型为主干的跨模态架构,其往往通过模态特定的编码器(RNN、CNN)转化为统一的向量表示后再输入语言模型,依靠语言模型来处理模态融合后的特征交互。但是这样带来的问题是任务响应时间长、损失模态间交互细节。
图2:以图文匹配任务多模态大模型实现架构
2024年以来以GPT-4o、Gemini为代表的多模态大模型纷纷开始使用端到端支持多种模态统一输入输出的模型架构。在该架构下引入分词器,通过将图像、音频等连续信号转换为离散
6/18
的token序列,然后与文本模态做统一表示,共同输入到基于自注意力的Transformer等模型中,实现端到端的学习。通过简化了模型的输入接口,减少模态间的信息损失,提升了模型处理即时任务的响应时间。
图3:端到端多模态模型架构图
2024GTC大会上,英伟达发布了人形机器人项目GR00T,旨在开发人形机器人的通用基础模型,该模型便是基于控制、执行和决策三个层级分层实现模型的端到端训练学习,最终通过合并反向反馈来得到精准输出结果,相比于直接通过语言大模型来让机器人实现自主决策可大幅提升机器人处理复杂任务的
7/18
精度、高效性以及灵活性。相比于人形机器人,端到端架构更早应用于无人驾驶领域,特斯拉早在2023年便发布了史上第一个端到端AI无人驾驶系统——FSDBetaV12,打破了传统无人驾驶模块化、人为预设规则解决方案的定式,只需通过摄像头、激光雷达等传感器数据输入,无需任何预设规则,便可直接输出控制车辆方向和速度的操作指令,使得无人驾驶方案变得更高效、成本更低。
三、视频生成领域:DiTs核心架构的可拓展性优势显现,基于数据处理、视频标注、音频模型的微创新推动视频生成
您可能关注的文档
- 2024年TikTok冷启动教程-出海网.docx
- 2024年全球著名电竞城市产业发展指数与排行报告-上海电竞协会&立信咨询.docx
- 2024年新质互联网智鉴报告(V1.0)-NIDA全球固定网络创新联盟.docx
- 2024年知识产权卓越运营报告-科睿唯安.docx
- 2024全球电商支付数据年度回顾报告-similarweb.docx
- 我国电碳市场建设相关问题的思考——华中科技大学电力能源系统转型研究中心.docx
- 03.虚拟电厂在园区新型电力系统中的实践和思考.pdf
- 04.基于电碳量化关系的低碳园区建设探索.pdf
- 05.零碳园区建筑路径-低碳建筑光储直柔系统探索与实践.pdf
- 06.零碳园区企业转型路径:数字化为企业节能降碳提供新动能.pdf
文档评论(0)