- 1、本文档共41页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章动态规划问题输入uu1u3u2x1x1x2x2x4x3第一月第三月第二月决策Zr3r2r1决策效应输出决策动态规划的概念与模型静态决策 一次性决策动态决策 多阶段决策u1ukunu2xkx1xk+!x2xnxn+1x3T1TkT2Tnrkr1rnr2多段决策过程……n个决策子问题K称为阶段变量xk描述k阶段初的状态,称为状态变量一般把输入状态称为该阶段的阶段状态。uk的取值代表k阶段对第k子问题所进行的决策,称为k阶段的决策变量rk为k阶段从状况xk出发,做决策uk之后的后果,称为k阶段的阶段效应。 u1(x1)u2 (x2)uk (xk)un (xn)x1x2x3xkxk+!xnxn+1……T1T2TkTnr1 (x1, u1)r2 (x2 ,u2)rk (xk,uk)rn (xn,un)具有无后效性的多段决策过程 Xk+1=Tk (xk, uk)系统从k阶段往后的决策只与k阶段系统的状态xk有关,而与系统以前的决策无关,则称为具有无后效性的多段决策过程。 uk (xk)un (xn)xkxk+!xnxn+1…TkTnrk (xk,uk)rn (xn,un)K后部子过程多段决策过程中从第k阶段到最终阶段的过程称为k-后部子过程,简称k-子过程。 动态规划模型Opt表示求优Xk是一个集合,表示k阶段状态可能取值的范围,称为状态可能集合。Uk是一个集合,表示k阶段决策可能取值的范围,称为决策允许集合,一般来说对于不同状态,可以作的决策的范围是不同的。因此决策允许集合一般写为Uk(xk)。 动态规划的建模 动态规划建模①确定阶段与阶段变量②明确状态变量和状态可能集合。③确定决策变量和决策允许集合。④确定状态转移方程。⑤明确阶段效应和目标。动态规划的建模①确定阶段与阶段变量阶段的划分一般是按照决策进行的时间或空间上的先后顺序划分的,阶段数等于多段决策过程中从开始到结束所需要作出决策的数目,阶段变量用k表示。②明确状态变量和状态可能集合。状态变量必须包含在给定的阶段上确定全部允许决策所需要的信息。状态变量的确定决定了整个决策过程是不是具有无后效性,因而也决定着能不能用动态规划方法来求解。状态可能集是关于状态的约束条件,因此为了求解必须正确地确定状态可能集。动态规划的建模③确定决策变量和决策允许集合。与静态问题相同,决策变量应能够反映对问题所作的决策,决策变量也应有其相应的约束条件,在建模时应明确决策允许集合Uk(xk)。④确定状态转移方程。系统k阶段从状态xk出发作了决策uk(xk)之后的结果之一是系统状态的转移,这一结果直接影响系统往后的决策过程,因此必须明确状态的转移过程,即根据问题的内在关系,明确xk+1=Tk(xk,uk)中的函数Tk( )。动态规划的建模⑤明确阶段效应和目标。阶段效应rk(xk,uk)是在阶段k以xk出发作了决策uk之后所产生的后果,必须明确rk与xk,uk的关系,才能构成目标函数。目标函数是由阶段效应经过某种集结而得到的,如何集结视具体问题而定,同时还应根据问题确定目标是求最大还是最小。由于在经济系统中的大多数情况下,目标的集结方法都是求和,因此,在不作说明的情况下,往后的讨论都针对目标为和的形式进行。 动态规划解的概念多段决策过程中所要求解的是,从起始状态x1开始,进行一系列的决策,使目标R达到最优最优目标值R*最优策略 使得目标达到最优的决策序列。最优路线 在采取最优策略时,系统从x1开始所经过的状态序列求解动态规划模型 找到最优策略、最优路线和最优目标值。 动态规划最优性原理多段决策过程的特点 每个阶段都要进行决策 相继进行的阶段决策构成的决策序列 前一阶段的终止状态又是后一阶段的初始状态阶段最优决策不能只从本阶段的效应出发,必须通盘考虑,整体规划。阶段k的最优决策不应该只是本阶段效应的最优,而必须是本阶段及其所有后续阶段的总体最优,即关于整个k后部子过程的最优决策。BAM动态规划最优性原理最优性原理 “最优策略具有的基本性质是:无论初始状态和初始决策如何,对于前面决策所造成的某一状态而言,下余的决策序列必构成最优策略”。动态规划最优性原理最优性原理的含意 最优策略的任何一部分子策略,也是相应初始状态的最优策略。 每个最优策略只能由最优子策略构成。显然,对于具有无后效性的多段决策过程而言,如果按照k后部子过程最优的原则来求各阶段状态的最优决策,那么这样构成的最优决策序列或策略一定具有最优性原理所提示的性质。 贝尔曼函数贝尔曼函数fk(xk): 在阶段k从初始状态xk出发,执行最优决策序列或策略,到达过程终点时,整个k-子过程中的目标函数取值,称为条件最优目标函数,亦称贝尔曼函数。条件最优策略 多段决策过程的任一阶段状态xk的最优策略 处于条件xk时的最优策略。条件最优决策
文档评论(0)