基干动态结构网络修剪算法设计.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基干动态结构网络修剪算法设计

基干动态结构网络修剪算法设计   摘要:研究具有自主学习能力的发育机器人,使机器人能够真正具有类似人的学习技能。动态结构网络的修剪算法设计使它像生物控制系统那样灵活而稳定。从模拟人的学习过程角度出发,通过不断地学习,使机器人拥有自主发展自身智能的能力,实现了机器人自主发育的功能 关键字:发育机器人;动态结构网络;修剪算法 Pruning algorithm based on dynamic structure network design Abstract:Robot research with independent learning ability of development, Make the robot can truly with similar learning skill of people. Pruning algorithm of dynamic structure network design to make it as flexible and stable as biological control system. From the Angle of the simulation of the human skills learning process, Through constant learning, Make robots have the ability to independently develop their intelligence, Realized the function of robot autonomous development. Keyword: Development of a robot; Dynamic structure of the network; Pruning algorithm 1 动态结构模型 动态网络模型是一个具有输入层、竞争层和输出层的三层的网络结构,它的结构图如图1所示。它是根据自组织特征映射神经网络的竞争工作机制设计,同时将修剪学习算法应用到该模型中 刺激P即两轮机器人的状态变量;u为网络的输出值,网络的输出采用径向基函数作为激发函数;决策选择部分是一个动作集,根据输出值以及评估机制的反馈在贪婪策略的指导下选取一个动作a作用于机器人上评估机制可以根据两轮机器人的控制效果给网络的竞争层一个反馈信号r[1] 2 网络结构模型 基于自组织特征映射网络的三层网络采用了“全互连”型的连接方式,即各层网络神经元之间都有连接权值。三层的网络结构如图2所示[2] 图2 基于自组织特征映射的三层网络结构 Fig.2Three?layer network?structure based on self-organizing feature map network ?W络接收归一化的刺激信号 ,输入层包含n个神经元,与P的矢量维数相等。输入层不对输入信号做任何处理,通过权值连接关系W将输入刺激传送到竞争层,竞争层包含M个神经元[3] 其中,仅有获胜神经元的输出值 为1,其余神经元的输出值都为0 V是两层网络的连接权值,令 和 分别为输出层神经元的输入、输出值,则 其中, 为激发函数,文中采用的是径向基函数 初始值是根据网络的输出层的输出值进行优化,再由决策选择模块根据选择策略选择一个动作a,作用于两轮机器人[4] 3 动态仿生学习优化模型设计 采用了Boltzmann策略进行了算法的优化, 将boltzmann机引入到仿生学习算法中,能够自主采用一种行为从一种状态到另一种状态,利用对采取动作的评价找到最优策略。下面给出了Markov决策过程 考虑一个有限的随机过程,环境状态 ,环境状态由转移到的转移概率可以用公式(3)表示: (3) Markov决策是为了选择出一个最优策略,使机器人选择的动作得到最大的评价奖赏, 。机器人采取动作时得到的奖赏信号或惩罚信号代表着决策的好坏,Markov决策过程的评价函数由公式(70)表示: 其中 是智能体执行策略 后,环境状态由St转移到St+1的转移概率。而最优策略所产生的评价函数V*为公式(4)所示: 在无限范围的情况下,V*满足式(6),著名的Bellman最优化方程: 4 仿真实验 在真实的实验环境中,外界的干扰因素会影响到机器人状态量,为了模拟真实环境,将白噪声干扰信号加入到输入的状态量中,仿真结果图3所示,表明机器人需要经过1000步(10s)的学习调节后,机器人才能达到平衡状态 以上仿真结果表明,Boltzmann策略算法的优化能使机器人处于匀速运动平衡的稳定状态,保持直立平衡。其能够实现

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档