网站大量收购独家精品文档,联系QQ:2885784924

求解POMDP的动态合并激励学习算法.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
求解POMDP的动态合并激励学习算法.pdf

第31 卷 第22 期 计 算 机 工 程 2005 年11 月 Vol.31 22 Computer Engineering November 2005 博士论文 文章编号 1000 3428(2005)22 0004 03 文献标识码 A 中图分类号 TP182 求解POMDP的动态合并激励学习算法 1,2 1 2 2 殷苌茗 王汉兴 陈焕文 谢丽娟 ( 1.上海大学理学院 上海200436 2.长沙理工大学计算机与通信工程学院 长沙 410077 ) 摘 要 把 POMDP 作为激励学习(Reinforcement Learning)问题的模型 对于具有大状态空间问题的求解有比较好的适应性和有效性 但 由于其求解的难度远远地超过了一般的Markov 决策过程(MDP)的求解 因此还有许多问题有待解决 该文基于这样的背景 在给定一些 特殊的约束条件下提出的一种求解POMDP 的方法 即求解POMDP 的动态合并激励学习算法 该方法利用区域的概念 在环境状态空间 上建立一个区域系统 Agent 在区域系统的每个区域上独自并行地实现其最优目标 加快了运算速度 然后把各组成部分的最优值函数按 一定的方式整合 最后得出POMDP 的最优解 关键词 部分可观测Markov 决策过程 激励学习 动态合并 信度状态 Dynamic Merge Reinforcement Learning Algorithm for Solving POMDP 1,2 1 2 2 YIN Changming , WANG Hanxing , CHEN Huanwen , XIE Lijuan ( 1. College of Science, Shanghai University, Shanghai 200436; 2.College of Computer and Communication Engineering, Changsha University of Science and Technology, Changsha 410077 ) Abstract This paper advances a new algorithm for solving a POMDP with some restriction conditions, which is the dynamic merge reinforcement learning method for solving a POMDP. This algorithm approves the conception of regions and then the paper sets up a regional system on state space of environment. The agent searches its optimal sub-goal separately at each region in regional system using parallel method, for the sake of speeding up the computations over this algorithm, an

文档评论(0)

整理王 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档