求解POMDP的动态合并激励学习算法.pdf

下载文档

16
0
约3.18万字
约 5页
2015-09-22 发布于湖北
举报
版权申诉
保障服务

求解POMDP的动态合并激励学习算法.pdf

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第31 卷第22 期计算机工程 2005 年11 月 Vol.31 22 Computer Engineering November 2005 博士论文文章编号 1000 3428(2005)22 0004 03 文献标识码 A 中图分类号 TP182 求解POMDP的动态合并激励学习算法 1,2 1 2 2 殷苌茗王汉兴陈焕文谢丽娟 ( 1.上海大学理学院上海200436 2.长沙理工大学计算机与通信工程学院长沙 410077 ) 摘要把 POMDP 作为激励学习(Reinforcement Learning)问题的模型对于具有大状态空间问题的求解有比较好的适应性和有效性但由于其求解的难度远远地超过了一般的Markov 决策过程(MDP)的求解因此还有许多问题有待解决该文基于这样的背景在给定一些特殊的约束条件下提出的一种求解POMDP 的方法即求解POMDP 的动态合并激励学习算法该方法利用区域的概念在环境状态空间上建立一个区域系统 Agent 在区域系统的每个区域上独自并行地实现其最优目标加快了运算速度然后把各组成部分的最优值函数按一定的方式整合最后得出POMDP 的最优解关键词部分可观测Markov 决策过程激励学习动态合并信度状态 Dynamic Merge Reinforcement Learning Algorithm for Solving POMDP 1,2 1 2 2 YIN Changming , WANG Hanxing , CHEN Huanwen , XIE Lijuan ( 1. College of Science, Shanghai University, Shanghai 200436; 2.College of Computer and Communication Engineering, Changsha University of Science and Technology, Changsha 410077 ) Abstract This paper advances a new algorithm for solving a POMDP with some restriction conditions, which is the dynamic merge reinforcement learning method for solving a POMDP. This algorithm approves the conception of regions and then the paper sets up a regional system on state space of environment. The agent searches its optimal sub-goal separately at each region in regional system using parallel method, for the sake of speeding up the computations over this algorithm, an