二马尔可夫决策型简介.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
回顾旧知风险决策的一般步骤是什么寻找问题的决策目标和所有可能的行动方案写出状态分布列确定损益函数或损益矩阵计算各行动方案所对应的损益函数的均值根据决策目标按照风险最小准则或平均收益最大准则选择最优方案什么是转移概率矩阵什么是平均收益矩阵想一想和有区别吗小练习计算解解新课导入在前面讲到的风险决策案例中各可能状态的分布列一般是不变的当可能状态随时间变化其状态的随机序列是一个马尔可夫链时这类决策就是马尔可夫型决策马尔可夫决策型简介教学目标知识与能力熟悉马尔可夫型决策能够独立地对马尔可夫型决策进行某一时

* 回顾旧知 风险决策的一般步骤是什么? 1.寻找问题的决策目标和所有可能的行动方案; 2.写出状态分布列; 3.确定损益函数或损益矩阵; 4.计算各行动方案所对应的损益函数的均值; 5.根据决策目标,按照风险最小准则或平均收 益最大准则选择最优方案. 什么是转移概率矩阵? 什么是平均收益矩阵? 想一想 和 有区别吗? 小练习 计 算 解: 解: 新课导入 在前面讲到的风险决策案例中,各可能状态的分布列一般是不变的,当可能状态随时间变化,其状态的随机序列是一个马尔可夫链时 ,这类决策就是马尔可夫型决策. 4.2马尔可夫决策型简介 教学目标 知识与能力 熟悉马尔可夫型决策,能够独立地对马尔可夫型决策进行某一时间段和短期的风险决策. 过程与方法 通过对普通风险决策的回顾,对马尔可夫链做进一步理解,结合前面的风险型决策对比的学习马尔可夫型决策. 情感态度与价值观 通过与普通风险决策比较的学习,使学生能够迅速的接受和理解马尔夫型决策. 重点:转移概念矩阵,平均收益矩阵. 难点:马尔可夫型决策案例分析. 教学重难点 案例4 某工厂的一台自动加工机有2种工作状态:正常状态和故障状态.在每个整数钟点的起始时刻检查机器的工作情况,若机器处于正常状态,则让它继续工作;若机器处于故障状态,则对他进行检修.假设处于正常状态的机器,在一小时后发生故障的概率为0.05,对于故障机器有2种检 案例分析 修方案可供选择,一种是加急检修,在一 小时内排除故障的概率为0.9;一种是常规 检修,在一小时内排除故障的概率为0.6. 已知这台机器正常工作一小时可收益 10元,加急检修1小时费用为9元,常规检修一小时费用为6元,若机器出现故障,该选择哪种方案? 先写出行动方案和可能状态 决策目标是使机器产生收益最大,可供选择的行动方案有: :加急检修, :常规检修. 机器在任意时刻可能所处的状态: :正常状态, :故障状态. 机器在第n小时的工作状态 与时间有关, 显然 是一个马尔可夫链,状态分布列随着 时间的变化也在不断变化. 普通风险决策分布列保持不变可表示为 1-p p h 行动方案d1 转移概率矩阵为 行动方案d2的转移概率矩阵为 然后写出状态转移矩阵 设定时间段 ,则收益矩阵 为 假设机器最开始为正常工作状态,则 初始分布为 写出收益矩阵,初始分布 时刻n的分布和时刻n+1的分布的关系? 想一想 在行动方案d1下,时刻1的分布 时刻2的分布 *

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档