自适应启发式与批判.doc

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自适应启发式与批判

自适应启发式与批判—— 应用到航空公司收益管理 文摘:自适应评论家启发式算法已成为一种流行在强化学习和近似动态规划。它是第一个RL和ADP的算法。RL和ADP算法有效的解决马尔可夫决策过程,遭受诅咒的维数和建模。 许多现实世界的问题,然而,往往是半马尔科夫决策过程(我们知道的时间花在每个过渡的底层的马尔可夫链本身是一个随机变量。不幸的是,对于一般的奖励情况,不像这个折扣奖励情况,没有一个简单的扩展。我们知道的例子可以发现在该地区的供应链管理、维修管理、和航空公司收益管理。在本文中,我们提出一种自适应启发式SMDP的批评家在长期平均报酬标准。我们给出了收敛算法的分析显示,在特定条件温和,可以确保在一个模拟器,收敛到最优解的概率1。我们测试了算法的广泛问题航空公司收益管理,经理必须设置价格的机票预订地平线。这个问题有一个大规模的,从痛苦的维数灾难,因此很难解决它通过经典方法的动态编程。我们的数值结果令人鼓舞,它们表明该算法优于现有的启发式使用在航空行业。 关键字: 自适应批评家;演员批评家;半马尔科夫近似动态规划;加固;知识 和决策的系统动力学是由马尔可夫链,并在每个到访的国家系统,控制器必须选择一个从两个或更多的交流组织。的目标是最大化的控制器给出的一些奖励获得在每个到访的国家在一个有限或无限一事的时间范围。在开衩的是在1950年代,更夫[1],他们开发了什么是现在叫行李员最优方程。op-erations管理之外,那里的MDP已广泛综采,最近MDPs发现应用程序在其他领域的工程(自主直升机控制[2])和人工智能(玩计算机游戏[3,4])。经典的方法来解决这个问题包括线性规划和动态规划(DP),例如。,值迭代[5],[6]策略迭代法。DP方法打破下来当数量的国家行动对很大,例如,超过几千,这称为诅咒的维度,也缺乏优化中的概率潜在的马尔可夫链,这是称为诅咒的建模。通常,在大型在现实世界中遇到的难题,国家行动对的数量太大(维数灾难)和转移概率模型太复杂(mod鹅岭诅咒)工作方法对古典DP。这本质上是因为它是困难的,如果不是不可能,存储或过程所有元素的转移概率矩阵,是需要在迪拜。特别是,这些矩阵是一个部分所谓的更夫方程,解决导致一个最优的解决方案。 它是在问题遭受这些诅咒,学习(RL)肯定的控制和自适应/近似动态编程(ADP)方法变得有用。RL / ADP 方法绕过跃迁概率矩阵和解决的一个变体底层更夫方程没有转移概率矩阵的。这些方法通常依赖于一个模拟器的系统通常是生成的变迁概率。对于教科书 引用这个话题,看到例句。,[7 - 9]。在本文中,我们提出一种新的自适应评论家算法这适用于与在每个状态所花费的时间是一个随机变量和的性能度量花时间考虑。对于所谓的折扣奖励情况下,性能指标是净现值之和的奖励赢得了一个无限的时间范围,适应评论家有一个简单的扩展研究了,在[10];所有的改变是折扣系数。然而,对于一般的奖励情况,其中一个试图最大化期望的奖励每单位吗该算法对于SMDP不能开发 一个简单的改变算法因为更新MDP包含最优值的性能指标开始时是未知的。为此,我们引入一个另外一对一步迭代的算法更新一个标量到的最优值的性能指标。 2010年7月,修订后的2011年3月16日。 这项工作是由美国国家科学基金会(No.ECS0841055)。 cSouth中国科技大学和科学院数学与系统科学,CAS和斯普林格出版社柏林海德堡2011 422 k . KULKARNI et al。/ J控制理论Appl2011 9(3)421 - 430优化。 正如上面提到的,RL算法时非常有用这个问题受到诅咒的维数和建模。因此,我们测试了算法上的问题 从航空公司收益管理的国家行动空间是巨大的和变迁概率很难锡箔。我们的算法显示了令人鼓舞的表现这 问题,优于工业启发式,广泛所使用的大多数航空公司。我们所掌握的最好知识,这是 第一篇论文提出算法收敛的自适应评论家为下位控制平均报酬。 其余的文章是有组织的如下。 第二节提供了一个背景。新算法是在第3节描述。收敛性能的研究了该算法在第四节。应用程序的该算法对航空公司收益管理问题随着数值计算结果给出了在第五部分,而本研究得出的结论提出了sec名诗6。 2 SMDPs和RL SMDP的一个问题是,找到最佳的行动 每个州当花费的时间在每一个状态转换是一个 随机变量,这个随机时间是一部分功能,即长期平均报酬在我们 案例。我们将首先讨论长期平均的re病房 2.1长期平均报酬 我们首先呈现一些符号需要我们的讨论。 让表示有限集的状态在,(i)fi夜间套动作允许在statei,μ(我)在国家的行动赵森我当政策μ是跟随,在那里 i∈年代(i)=一个。此外,让r(,.,.·):S××S→一个r表示 一步法直接奖励,t(,

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档