大语言模型在投研中的应用：DeepSeek、QwQ.pptx

下载文档

25
0
约6.37千字
约 27页
2025-03-27 发布于北京
举报
版权申诉
保障服务

大语言模型在投研中的应用：DeepSeek、QwQ.pptx

1、本文档共27页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

P2概述：AI赋能投研应用模型技术架构投研场景适配性分析量化研究中的技术适配本地部署大语言模型在投研中的应用未来演进方向目录

P31、概述：AI赋能投研应用1.1概述传统投研面临两大核心瓶颈：非结构化数据处理效率低下与量化模型信号维度单一。分析师花费大量时间处理财报、新闻、电话会议记录等文本数据，且人工提取关键指标存在一定误差率。量化策略依赖结构化数据（如价格、财务指标），难以捕捉政策变化、市场情绪等文本隐含信号。DeepSeek、QwQ-32B与Manus等大语言模型先后发布，为投研场景带来新的技术支持。DeepSeek-R1：6710亿参数的混合专家（MoE）模型，专注深度推理与跨模态分析；QwQ-32B：阿里开源的320亿参数推理模型，以强化学习突破参数限制，性能比肩DeepSeek；Manus：Monica公司的多代理架构模型，通过任务分解与工具调用实现端到端流程自动化。本报告将深入解析三者的技术差异，并结合投研与量化研究的核心需求，提出场景适配框架与实施路径。

P42、模型技术架构2.1DeepSeek-R1架构设计创新DeepSeek-R1采用稀疏混合专家（SparseMoE）架构，包含1个共享专家和256个领域专家，每次推理仅激活6?参数（约370亿）其核心技术突破体现在：双流编码器：文本流（处理自然语言）与代码流（执行逻辑运算）通过跨模态注意力矩阵实现动态融合（如非结构化文本转化为估值模型处理速度提升）。多头潜在注意力（MLA）：通过低秩压缩技术将KV缓存占用降低至传统架构的5?-13，支持12万字长文本处理（如完整上市公司年报分析）。冷启动数据策略：引入数千条高质量数学/代码样本进行预训练微调，解决纯强化学习导致的“语言混合”问题，提升模型稳定性。

P52.2DeepSeek-R1训练流程图DeepSeek-V3DeepSeek-R1-Zero强化学习：GRPO准确性奖励：数学、逻辑、代码格式奖励数k个长CoT冷启动数据第一次SFT第一次强化学习增强推理能力准确性奖励：数学、逻辑、代码语言一致性奖励60w推理数据第二次SFT第二次强化学习DeepSeek-R120w非推理数据全场景强化学习有用性、无害性、精细推理、人类偏好为RL提供稳定基础结构化推理过程通用能力防止任务过拟合DeepSeek-V3的通用能力数据人工标注示例RL生成的多样化内容RL阶段的拒绝采样资料来源：太平洋证券整理图表1：DeepSeek-R1训练流程图

P62、模型技术架构2.3DeepSeek-R1历代模型核心差异图表2：DeepSeek-R1演进过程中历代模型核心差异对比资料来源：太平洋证券整理模型V3R1-ZeroR1R1-Distill架构重点MLA+MoE优化，通用多任务处理纯MoE架构，无SFT阶段V3基座+冷启动SFT+两阶段RL基于Qwen/Llama架构的蒸馏模型训练方法预训练+SFT+DPO纯强化学习（GRPO）SFT+两阶段强化学习知识蒸馏+合成数据微调数据依赖14.8万亿通用数据无标注数据，规则奖励驱动冷启动数据+RL生成混合数据R1生成数据应用场景代码生成、多模态任务科研推理、数学竞赛复杂推理与通用任务平衡轻量化推理、本地部署硬件成本需多GPU服务器（如8×A100）同V3，但生成效率低同V3，优化后推理速度提升30单卡GPU（如RTX3090）

P72、模型技术架构2.4QwQ-32B架构设计创新QwQ-32B通过动态稀疏计算与混合精度量化实现轻量高效，其技术核心体现在：动态门控网络：根据输入内容动态分配计算资源，在数学推理任务中激活参数量仅为同规模模型的60?。FP8+INT4混合量化：激活值采用FP8精度（保持数值稳定性），权重矩阵使用INT4量化（压缩率4:1），单卡A100即可承载完整32B参数推理，提升推理速度的同时显著降低显存占用。渐进式蒸馏框架：通过结构-参数-逻辑的三阶段渐进蒸馏，缩短训练周期。双阶段强化学习训练策略严格结果验证器阶段：直接通过代码执行结果和数学答案正确性提供奖励信号。通用强化学习阶段：引入多维度奖励模型（包括格式规范性、逻辑连贯性），解决单一结果奖励导致的“奖励操纵”问题。

P82、模型技术架构资料来源：Qwen2.5QwQ-32B能力测试结果QwQ-32B在数学推理能力、代码生成与优化、开放问答与多任务处理、指令理解与执行、工具调用与函数交互等能力测试中获得不错的分数。图表3：QwQ-32B基准测试结果

P92、模型技术架构2.6Manus架构设计创新Manus用多代理架构实现任务闭环，其架构与核心技术体现在：规划代理：通过思维树（ToT）算法将任务拆解为可执行步骤。执行代理：支持调用Python解释器（数据处理）、内置浏览器（信息抓取）、