网站大量收购独家精品文档,联系QQ:2885784924

最小二乘策略迭算法研究.pdf

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最小二乘策略迭算法研究

最小二乘策略迭代算法研究 中文摘要 最小二乘策略迭代算法研究 中文摘要 强化学习是一种通过与环境的交互 将状态映射到动作 以获取最大累积奖赏的 机器学习方法。在大规模和连续状态或动作空间强化学习问题中 通过使用函数逼近 方法拟合策略形成了近似强化学习方法。最小二乘策略迭代是一类前沿的近似强化学 习方法 其最小二乘逼近可以从样本中获取更多有效信息 并可以应用到在线算法中。 本文着眼于在线最小二乘策略迭代算法 对其进行了以下几方面的扩展 提出了相应 的算法: (1)针对在线最小二乘策略迭代算法对样本数据利用不充分、每个样本仅使用 一次就被丢弃的问题 提出一种批量最小二乘策略迭代(BLSPI)算法。该算法在线保 存生成的样本数据 多次重复使用这些样本数据以更新控制策略 可以有效利用之前 的经验知识 提高经验利用率 加快收敛速度。 (2 )针对最小二乘策略评估(LSPE)算法中步长参数固定或形式单一、缺乏自动 性的问题 提出一种自动批量最小二乘策略迭代(ABLSPI)算法。该算法结合定点步长 参数评估方法 高效地利用样本数据和策略动态调整步长参数 进一步提高了经验利 用率 加快了收敛速度 并提高了学习过程的稳定性。 (3 )将BLSPI 算法扩展到连续动作空间 并针对状态空间维数较大状态特征较 多时算法收敛速度较慢的问题 提出一种应用于连续动作空间的快速特征选择批量最 小二乘策略迭代(CABLSPI-FFS)算法。该算法使用二值动作有哪些信誉好的足球投注网站方法减少了动作有哪些信誉好的足球投注网站 的复杂度 并自动选择较优的状态特征评估策略 降低了状态空间的维数 减少了运 算量 提高了算法的执行效率。 关键词:强化学习 最小二乘策略迭代 批量更新 自动步长评估 特征选择 作 者: 周鑫 指导老师: 刘全 (教授) I Abstract Research on Least-Squares Policy Iteration Algorithms Research on Least-Squares Policy Iteration Algorithms Abstract Reinforcement learning is a kind of machine learning methods which maps the state to the action in order to obtain the maximum cumulative rewards through interacting with the environment. In reinforcement learning problems with large-scale and continuous state or action spaces, the approximate reinforcement learning methods are proposed by using the function approximation methods to fit the polic . Least-squares policy iteration is a state-of-the-art approximate reinforcement learning method. The least-squares approximation can extract more useful information from the samples and can be applied to the online algorithms

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档