网站大量收购独家精品文档,联系QQ:2885784924

04第四章 动态规划.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
04第四章 动态规划

第四章 动态规划初步 第一节 问题概览 一、问题的表述 与变分法和最优控制相比,动态规划处理离散时间与不确定性问题更有优势。在本章中,我们将简介在确定性下的动态规划的初步知识。我们从下面的问题开始: (P1) , 对所有的时间 给定。 约束说明在时的值。是状态变量,可以看作是时的控制变量。所以该约束说明给定状态变量如何确定控制变量。是瞬时回报(实值函数),不独立依赖于时间。 我们是要得到最优值序列以使得最大,被称为最优计划(plan),是值函数。我们把问题P1的形式称为序贯(sequence problem)问题。显而易见,与初始的相关,即不同的会导致不同的最优值。下面是一个该问题形式的具体例子: 例1: ,给定。 该例子实际上就是代表性主体(或计划者)的Ramsey问题。该问题不是标准的P1问题的形式,但是我们可以将它转化成P1的形式: 其中,。对应P1式中:,。 序贯问题有时会有优美的特性,但是它一般很难解出也不利于数值运算。 动态规划的思想是将上面的序贯问题转化成函数方程(functional equation)的形式,即将原问题的寻找一个最优序列转化成寻找一个函数。函数方程为: (P2) P2为贝尔曼方程。在P2中,我们寻找一个策略(policy),它决定给定时应为多少,即如何由状态变量确定控制变量。由于不依赖于时间,策略也不依赖于时间。我们以和分别表示状态和控制变量。这样,问题被表述成对任何选出适当的。从数学上看,这对应于对任何最大化。 下面是一个将问题P1转化成P2的具体例子(不是十分严格): 上式将一个最优化问题分成两部分,一部分是对当前期的优化,一部分是对后续路径的优化。 如果已知最优策略函数为,则可得最优值函数: 或者我们可以从上式来寻求,如果求到了,则使P2最大化。后面的一些定理保证了我们在一定条件下从P2问题求出的解与从P1问题求出的解是一致的。这样,我们处理动态规划问题的步骤为:首先将P1转化为P2的形式,再在P2寻求最优策略函数。 二、一阶条件 我们从如下形式的P2问题开始求解一阶条件(欧拉方程): (1) 求解一阶条件分为三步: 1、上式右边对控制变量求导所得一阶导数为0。如果、是标量,则有: (2) 2、对(1)式应用包络定理: (3) 3、结合(2)和(3)得到如下的一阶条件: (4) 其中,定义了,且由(3)是得到: (5) 把(5)式的结果代入(2)即得(4)中的欧拉方程。 除了以上结果外,我们也有一个TVC: 例2: 先写成递归形式: 由(2)得到: (6) 由(3)得到: (7) 令,则有一阶条件: 下面的关键问题是求出策略函数。我们猜想。 例3: 约束为: 首先将约束变形得: 从而原问题转化为P2形式: 其中为的下期值。 如果、不是标量,则(2)、(3)、(4)式依次为: 横截性条件为: 定理:如果下节的假设1—5成立,则满足一阶条件(4)与TVC的序列是原问题P1的解。 第二节 若干定理 本节说明P1和P2两个问题的解的关系(解的等价性),从P1的假设开始: 假设1:非空,存在且有限。 在经济问题中,我们一般不关注极限值无限的问题,主要原因是稀缺性。但无限问题仍可分析。 假设2:,是的紧子集,非空、紧且连续。令假设是连续的。 在内生增长模型中,资本存量无限,不是紧的。 假设1和2保证了我们在某个可行计划下P1和P2有最大值。我们的一般化结论可在假设1和假设2下得到。 假设3:是严格凹的,G是凸的。 这个假设在经济问题中也非常常见:约束是凸集,目标函数是凹或严格凹。 凹函数为: 且如果则取严格不等号。凸集定义为: 假设4:对每一对前个自变量(状态变量)严格递增。单调,即,单调意味着更大的有更多的选择。 假设5:G在域内是连续可微的。 以下是有关定理。 定理1:(值的等价性):假定1成立,则对任一,P2都有唯一的值,它等于问题1(P1)中的。 这个定理告诉我们,P1和P2可以达到同样的值。但动态规划中我们关注的是最优计划,所以定理1在经济分析中几乎没有多大作用。下面的定理2更为重要。 定理2:(最优性原理):假设1成立,令是P1中达到的一个可行计划,则: ① 对任,,且都成立。 而且,对于任何满足①式的,它都能在问题1中达到最优值。 其中是从开始的可行序列(或计划)。 对中的一个代表性元素。 由于P1中的的形式与P2中的形式相同,常省略,即①为: 这个定理告诉我们,要解P1问题可从P2开始,反过来也一样。 下面的几个定理说明了P

文档评论(0)

shenlan118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档