- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
请仔细阅读在本报告尾部的重要法律声明1
证券研究报告2024.07.09
量化策略
机器学习系列(2):强化学习模型轮
动框架下的行业配置
周萧潇分析员
SAC执证编号:S0080521010006
SFCCERef:BRA090
xiaoxiao.zhou@
郑文才分析员
SAC执证编号:S0080523110003
SFCCERef:BTF578
wencai3.zheng@
刘均伟分析员
SAC执证编号:S0080520120002
SFCCERef:BQR365junwei.liu@
我们在机器学习系列第一篇报告《机器学习系列(1):使用深度强化学习模型探索因子构建范式》中使用强化学习模型生成因子表达式,所挖掘的因子在样本外有效性较为显著。本篇报告作为机器学习系列报告的第二篇,我们将回归强化学习的优势领域:组合优化任务。
我们将深度强化学习模型应用到行业配置(行业轮动)中,充分发挥强化学习在序列决策任务上的优势,让强化学习模型选出可能具有相对优势的行业。在尝试了多种创新性训练方法以避免模型的过拟合等关键问题后,我们发现使用强化学习模型轮动的训练框架可以最终得到兼顾稳定与收益的结果。
强化学习的优势领域:组合优化
我们认为强化学习相较于其他传统机器学习模型而言,与环境交互更新策略的方式使其更加适用于序列决策任务,这使得其与多为时序类型的金融数据更加匹配。我们使用强化学习模型在金融领域较为经典的FinRL框架,全面梳理并测试PPO、TRPO、SAC、A2C、DDPG和TG3六大主流强化学习模型在行业配置上的表现。
单次训练模式:缺乏确定性的收益
由于机器学习尤其是强化学习的高复杂度,模型稳定性一直是业界较为关注的议题。我们首先使用单次切分的方法把样本数据以2022年1月为界划分成样本内外。在样本内进行模型训练,在样本外验证其有效性。我们发现周频调仓下相对于行业等权和因子等权来说,两年期样本外分别获得11.9%和6.0%的年化超额收益,但并不是所有随机数种子的样本外都可以达到这一理想结果。
在对其稳定性进一步测试时,我们使用了不同强化学习模型、超参数、随机数种子以及不同样本区间起点等条件测试其对于训练效果的影响。我们发现训练敏感性方面:模型选择样本区间随机数种子关键超参数。以上不同选择带
来的超额收益率极差可达20%以上。因此单次训练模型面对的样本外不稳定风险是我们接下来主要解决的问题。
平衡收益与风险:拓展搜参vs模型轮动
为了缓解模型的不稳定性,我们尝试拓展训练超参有哪些信誉好的足球投注网站和模型滚动两种方法对模型进行更新训练。两种方式都确保模型能够及时接受必威体育精装版的市场数据,实验表明模型轮动的思路更好地兼顾了稳定性与高收益。
我们首先使用拓展训练的模型,固定每一期样本内长度,样本外数据则采用外推半年的方法确定,下一期样本内截止时间依次推后半年。在每一期样本内的训练中我们引入Optuna框架寻找最优参数,将样本内最优的参数组合及模型应用于当期样本外。拓展训练结果显示相对于单次训练的平均效果并没有太明显的超额收益,尤其是在因子等权超额的角度来看,和单次训练差距不大。
而使用滚动模型框架时我们测试得到在因子等权和行业等权的超额收益对比单次训练的样本外平均水平都有了显著提升。模型滚动框架相对行业等权样本外年化超额收益16.4%,相对于因子等权年化超额收益7.7%。稳定性方面,在多次滚动中模型战胜等权基准的胜率均达到100%,表现也显著优于单次训练的结果,效率上并行训练方案也比搜参方案平均提升超过5倍。
风险提示:样本内测试结果不代表样本外表现的可持续性,不同测试框架可能会带来测试结果的差异。
l量化策略|机器学习系列(1):使用深度强化学习模型探索因子构建范式(2024.04.07)
l量化策略|量化多因子系列(12):高频因子手册(2024.01.15)
l量化策略|另类数据策略(2):如何优化新闻文本因子(2023.09.12)
l量化策略|量化多因子系列(7):价量因子手册(2022.08.06)
l量化策略|量化多因子系列(5):基本面因子手册(2022.04.26)
请仔细阅读在本报告尾部的重要法律声明2
目录
深度强化学习算法应用到行业配置任务 4
面向时间序列金融场景的深度强化学习模型 4
序列决策任务建模流程与主流算法介绍 5
单次训练模式:缺乏确定性的收益 11
强化学习预测时序数据基础框架 11
单次训练模式:收益与风险并存 13
强化学习的敏感性测试:模型选择、随机数种子、超参数与样本区间
您可能关注的文档
- SITA:2024年行李IT洞察报告.docx
- yundee工业互联网白皮书 2024 -智慧工业互联融合产业共生.docx
- 保险:日本保险系列(2):日本财险的演变和启示 20240710 -中金.docx
- 北方国际(000065)电煤添翼,投运助力-东北证券[王小勇]-20240709【34页】.docx
- 比亚迪 规模化、全球化、高端化,电车龙头进入新上行周期.docx
- 变支承磁悬浮转子超临界运行仿真研究.docx
- 财富趋势(688318)头部券商交易系统供应商-广发证券[陈福]-20240709【23页】.docx
- 成都华微(688709)国内特种集成电路设计领先企业,高端新品研发储备助推成长.docx
- 磁悬浮列车动力学研究方法综述.docx
- 电力电气设备:电新周报:全球储能并网容量环比上升,国网变电设备第3批次中标保持景气 20240710 -中金.docx
- 2025年五年级信息技术下册全册教案.doc
- 2025年内部竞聘操作全套表格.doc
- 2025年人美版一年级美术上册教案全册.doc
- 2025年上海市第十八届初中物理竞赛复赛试题及答案大同中学杯.doc
- 2025年六年级全册心理健康教案116课.doc
- 重庆市重点校联考(含重庆市第八中学校)2024-2025学年高三下学期2月月考历史试卷.docx
- 2025年前25题5月企业培训师二级真题.doc
- 2025年商务礼仪南开大学远程在线作业答案.docx
- 2025年全国通用高中英语必修二Unit3TheInternet知识点归纳超级精简版.docx
- 2025年人教版小学四年级语文上册基础知识复习试题全册.doc
文档评论(0)