最优控制七动态规划法.ppt

下载文档 降价啦

1
0
约5.04千字
约 68页
2017-09-20 发布于江苏
举报
版权申诉
保障服务

最优控制七动态规划法.ppt

1、本文档共68页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

最优控制七动态规划法

将x(t + ?t)进行泰勒展开，取一次近似，有 (9) (10) (11) 将上式在[x,t]领域展成泰勒级数，考虑到 J*[x+?x, t+?t]既是x的函数，也与t有关，所以 (12) (8) 代入式(8)，得 (13) (12) (8) 考察上式因为J*[x, t]与u无关，故J*[x, t]与可提到min号外面。经整理可得式(14)称为连续系统动态规划基本方程或贝尔曼方程。 (14) 贝尔曼方程。它是一个关于J*[x, t]的偏微分方程。解此方程可求得最优控制使J为极小。它的边界条件为 (15) (14) 如果令哈密尔顿函数为式中则式(14)可写成 (17) (16) 当控制矢量u(t)不受限制时，则有上两式称为哈密尔顿－雅可比方程。上式说明，在最优轨线上，最优控制必须使H达全局最小。实际上这就是极小值原理的另一种形式。 (18) 由贝尔曼方程可推导出协态方程和横截条件。式(14)可写成对x求偏导数，得 (20) (19) (14) 由于对t的全导数，为 (22) (21) 代入式(20)可写成 (20) 令，则上式可写成 (23) 这就是所求的协态方程，与以前结果完全一致。 (22) 在t= tf时，在终端处性能泛函为式中μ——与N同维的乘子矢量。 (24) 对x(tf)求偏导数，得 (25) (26) 即 (24) 将式(24)对tf求偏导数，得 (27) (24) 考虑式(17)、式(20)得上述结果与极小值原理中推导的完全一致。上述推导过程实际上等于用动态规划方法间接证明了极小值原理。 (28) (17) (20) (27) 应当指出，与极小值原理相比，动态规划法需要解偏微分方程式(14)，它要求J [x, t]具有连续的偏导数，但在实际工程中，这一点常常不能满足，因而限制了动态规划法的使用范围。例1：设，求最优控制u*(t)使解：构造哈密尔顿函数根据哈密尔顿－雅可比方程，有考虑控制u不受限制，得故边界条件，因Φ[x(tf), tf]=0，故J[x(tf)]=0 如果令，则得这正是应用极小值原理所得的结果，二者完全一致。例2：设受控系统状态方程为初始状态为性能泛函为试求在u无限制情况下，使J取极小时的最优控制。解：构造哈密尔顿函数由哈密尔顿－雅可比方程因u无限制，可从求得代入上式，并注意到J*与t无关，因而，有为求解此偏微分方程，设其解为满足方程，得各项系数为可得解为最优控制最优控制可由状态反馈实现，如图7所示。进一步考察系统的状态轨线。系统的状态方程为齐次方程。它的解为 * 第七章动态规划法动态规划是贝尔曼在50年代作为多段决策过程研究出来的，现已在许多技术领域中获得广泛应用。动态规划是一种分段最优化方法，它既可用来求解约束条件下的函数极值问题，也可用于求解约束条件下的泛函极值问题。它与极小值原理一样，是处理控制矢量被限制在一定闭集内，求解最优控制问题的有效数学方法之一。动态最优的核心是最优性原理，它首先将一个多段决策问题转化为一系列单段决策问题，然后从最后一段状态开始逆向递推到初始段状态为止的一套求解最优策略的完整方法。下面先介绍动态规划的基本概念，然后讨论连续型动态规划。一、多段决策问题动态规划是解决多段决策过程优化问题的一种强有力的工具。所谓多段决策过程，是指把一个过程按时间或空间顺序分为若干段，然后给每一步作出“决策”(或控制)，以使整个过程取得最优的效果。如图1所示，对于中间的任意一段，例如第k+1 段作出相应的“决策”(或控制)uk后，才能确定该段输入状态与输出状态间的关系，即从xk变化到xk+1的状态转移规律。在选择好每一段的“决策”(或控制) uk 以后，那么整个过程的状态转移规律从x0经xk一直到 xN也就被完全确定。全部“决策”的总体，称为“策略”。当然，如果对每一段的决策都是按照使某种性能指标为最优的原则作出的，那么这就是一个多段