基于未知环境状态新定义及知识启发的机器人导航Q学习算.PDF

下载文档 降价啦

6
0
约1.57万字
约 5页
2019-02-25 发布于天津
举报
版权申诉
保障服务

基于未知环境状态新定义及知识启发的机器人导航Q学习算.PDF

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2014 年第 23 卷第 1 期计算机系统应用基于未知环境状态新定义及知识启发的机器人导航Q ① 学习算法童小龙, 姚明海, 张灿淋 (浙江工业大学信息工程学院, 杭州 310023) 摘要: 由于强大的自主学习能力, 强化学习方法逐渐成为机器人导航问题的研究热点, 但是复杂的未知环境对算法的运行效率和收敛速度提出了考验. 提出一种新的机器人导航Q 学习算法, 首先用三个离散的变量来定义环境状态空间, 然后分别设计了两部分奖赏函数, 结合对导航达到目标有利的知识来启发引导机器人的学习过程. 实验在 Simbad 仿真平台上进行, 结果表明本文提出的算法很好地完成了机器人在未知环境中的导航任务, 收敛性能也有其优越性. 关键词: 强化学习; 状态定义; 知识启发; Simbad 平台 A Q-Learning Algorithm for Robot Navigation Based on a New Definition of an Unknown Environment States and Knowledge Heuristic TONG Xiao-Long, YAO Ming-Hai, ZHANG Can-Lin (College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China) Abstract: Due to powerful self-learning ability, reinforcement learning has become a research hot spot about robot navigation problems, but the operating efficiency and convergence speed of the algorithm are tried by the the complex unknown environment. A new Q-learning algorithm for robot navigation was proposed in this paper. First, three discrete variables were used to define the space states of the environment, and then two parts of the reward functions were designed, combining the beneficial knowledge for reaching the target to inspire and guide the robots learning process. The experiment was executed on Simbad simulation platform. The results show that the proposed algorithm is well done in an unknown environment robot navigation task, and has a better convergence speed. Key words: reinforcement learning; states definition; knowledge heuristic; Simbad platform 未知环境下移动机器人导航主要面临解决两大问在未知环境中探索的重要技术, 很多传统的人工智能题, 即机器人定位和路径规划[1,2]. 定位是指机器人根算法在这方面做了大量的工作. 随着机器人应用领域据所处的环境判断自己的位置和方向, 它需要识别出