机器学习系列（2）：强化学习模型轮动框架下的行业配置 20240710 -中金.docx

下载文档

3
0
约3.86万字
约 47页
2024-12-06 发布于浙江
举报
版权申诉
保障服务

机器学习系列（2）：强化学习模型轮动框架下的行业配置 20240710 -中金.docx

1、本文档共47页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

请仔细阅读在本报告尾部的重要法律声明1

证券研究报告2024.07.09

量化策略

机器学习系列（2）：强化学习模型轮

动框架下的行业配置

周萧潇分析员

SAC执证编号：S0080521010006

SFCCERef：BRA090

xiaoxiao.zhou@

郑文才分析员

SAC执证编号：S0080523110003

SFCCERef：BTF578

wencai3.zheng@

刘均伟分析员

SAC执证编号：S0080520120002

SFCCERef：BQR365junwei.liu@

我们在机器学习系列第一篇报告《机器学习系列（1）：使用深度强化学习模型探索因子构建范式》中使用强化学习模型生成因子表达式，所挖掘的因子在样本外有效性较为显著。本篇报告作为机器学习系列报告的第二篇，我们将回归强化学习的优势领域：组合优化任务。

我们将深度强化学习模型应用到行业配置（行业轮动）中，充分发挥强化学习在序列决策任务上的优势，让强化学习模型选出可能具有相对优势的行业。在尝试了多种创新性训练方法以避免模型的过拟合等关键问题后，我们发现使用强化学习模型轮动的训练框架可以最终得到兼顾稳定与收益的结果。

强化学习的优势领域：组合优化

我们认为强化学习相较于其他传统机器学习模型而言，与环境交互更新策略的方式使其更加适用于序列决策任务，这使得其与多为时序类型的金融数据更加匹配。我们使用强化学习模型在金融领域较为经典的FinRL框架，全面梳理并测试PPO、TRPO、SAC、A2C、DDPG和TG3六大主流强化学习模型在行业配置上的表现。

单次训练模式：缺乏确定性的收益

由于机器学习尤其是强化学习的高复杂度，模型稳定性一直是业界较为关注的议题。我们首先使用单次切分的方法把样本数据以2022年1月为界划分成样本内外。在样本内进行模型训练，在样本外验证其有效性。我们发现周频调仓下相对于行业等权和因子等权来说，两年期样本外分别获得11.9%和6.0%的年化超额收益，但并不是所有随机数种子的样本外都可以达到这一理想结果。

在对其稳定性进一步测试时，我们使用了不同强化学习模型、超参数、随机数种子以及不同样本区间起点等条件测试其对于训练效果的影响。我们发现训练敏感性方面：模型选择样本区间随机数种子关键超参数。以上不同选择带

来的超额收益率极差可达20%以上。因此单次训练模型面对的样本外不稳定风险是我们接下来主要解决的问题。

平衡收益与风险：拓展搜参vs模型轮动

为了缓解模型的不稳定性，我们尝试拓展训练超参有哪些信誉好的足球投注网站和模型滚动两种方法对模型进行更新训练。两种方式都确保模型能够及时接受必威体育精装版的市场数据，实验表明模型轮动的思路更好地兼顾了稳定性与高收益。

我们首先使用拓展训练的模型，固定每一期样本内长度，样本外数据则采用外推半年的方法确定，下一期样本内截止时间依次推后半年。在每一期样本内的训练中我们引入Optuna框架寻找最优参数，将样本内最优的参数组合及模型应用于当期样本外。拓展训练结果显示相对于单次训练的平均效果并没有太明显的超额收益，尤其是在因子等权超额的角度来看，和单次训练差距不大。

而使用滚动模型框架时我们测试得到在因子等权和行业等权的超额收益对比单次训练的样本外平均水平都有了显著提升。模型滚动框架相对行业等权样本外年化超额收益16.4%，相对于因子等权年化超额收益7.7%。稳定性方面，在多次滚动中模型战胜等权基准的胜率均达到100%，表现也显著优于单次训练的结果，效率上并行训练方案也比搜参方案平均提升超过5倍。

风险提示：样本内测试结果不代表样本外表现的可持续性，不同测试框架可能会带来测试结果的差异。

l量化策略|机器学习系列（1）：使用深度强化学习模型探索因子构建范式(2024.04.07)

l量化策略|量化多因子系列（12）：高频因子手册(2024.01.15)

l量化策略|另类数据策略（2）：如何优化新闻文本因子(2023.09.12)

l量化策略|量化多因子系列（7）：价量因子手册(2022.08.06)

l量化策略|量化多因子系列（5）：基本面因子手册(2022.04.26)

请仔细阅读在本报告尾部的重要法律声明2

深度强化学习算法应用到行业配置任务 4

面向时间序列金融场景的深度强化学习模型 4

序列决策任务建模流程与主流算法介绍 5

单次训练模式：缺乏确定性的收益 11

强化学习预测时序数据基础框架 11

单次训练模式：收益与风险并存 13

强化学习的敏感性测试：模型选择、随机数种子、超参数与样本区间

机器学习系列（2）：强化学习模型轮动框架下的行业配置 20240710 -中金.docx 原文免费试下载

您可能关注的文档

文档评论（0）

分享使人快乐 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

机器学习系列（2）：强化学习模型轮动框架下的行业配置 20240710 -中金.docx