- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
吉林大学建模辅导对策问题
对策模型
一、基本概念
首先,通过一个实际问题来介绍一下有关概念。
例(囚犯难题) 有A、B两个人隐藏有被盗物品而被捕,现在正分别受警方审讯。此二人都清楚,如果拒不承认,现有的证据不足以证明他们曾经偷盗,而只能以窝藏赃物罪被判处一年监禁。二人都招认,将被判监禁5年,但若有一人招供而另一人拒不招认,那么供出同伙的人将会获得释放,另一个将被判监禁10年,把犯人A,B被判刑的几种可能列表如下:
表中的每对数字表示根据犯人采取的行动而被判刑的年数。A,B两犯人都希望受到最轻的处罚,但又担心对方供认,最保险的办法是承认犯罪,这样可以避免出现最坏的情况。因此二人都招认了,这样警方就成功的取得了口供。
以这个简单的对策为例,我们来介绍一下对策的基本要素。
(1)局中人 具有决策权的参加者。例中犯人A、B即为局中人。两人(两方)对策问题只能有两名局中人,属于利害一致的参加者,可视为同一局中人。
(2)策略 局中人可采取的可行方案。策略的全体构成策略集。策略集分为有限集和无限集。
设局中人A有m个策略(或称为纯策略),策略集SA=, B有n个策略SB=。当A选用第i个策略,B选用第j个策略时, 构成一个纯局势,SA和SB中的策略可构成mn个纯局势。对应于,把A的赢得记为,B的赢得记为可用下表表示。
举例,齐王与田忌赛马:
(上中下) (上下中) (中上下) (中下上) (下中上) (下上中) (上中下) 3 1 1 1 1 -1 (上下中) 1 3 1 1 -1 1 (中上下) 1 -1 3 1 1 1 (中下上) -1 1 1 3 1 1 (下中上) 1 1 -1 1 3 1 (下上中) 1 1 1 -1 1 3 (3)支付矩阵(赢得矩阵):当纯局势已确定时,A的赢得正是B的所失,即双方得失之和为零,此类对策称为零和对策。此时,因(见上表齐王所得即是田忌支付)略去,记
称mn为支付矩阵(赢得矩阵)。
一般的,把一个对策记为G,G={SA , SB , A }.
(4)最优纯策略与鞍点
从前面的囚犯难题的例子中,我们看到,A,B两人考虑问题的出发点并非是获得最好的结果,而是在避免最坏结果的前提下,寻求一种保险的最佳方法,这也往往是对策双方考虑问题的通用规则。最小最大化原则。
例题:(摘自Hamdy A.Taha著《运筹学》P392.例10.4-2)
考虑如下表示局中人A的所得的支付矩阵。
局中人B 1 2 3 4 行的最小值 局中人A 1 8 2 9 5 2 2 6 ⑤ 7 18 ⑤ 最大最小值 3 7 3 -4 10 -4 列的最大值 8 ⑤ 9 18 最小最大值 当局中人A采取他的第一个策略时,他可以赢得8,2,9或5,这取决于B所选择的策略。但是,不管B挑选什么策略,他至少可以保证赢得min{8,2,9,5}=2。同样的,如果A采取他的第二个策略时,他至少可以保证赢得min{6,5,7,18}=5的收入;如果A采取他的第三个策略时,他至少可以保证赢得min{7,3,-4,10}=-4的收入。因此,如果A采取他的纯策略,那么每一行中的最小值表示A保证能赢得的最小所得。这些数据用“行的最小值”表示。现在A通过挑选他的第二个策略来使他的最小所得达到最大。这个所得是max{2,5,-4,}=5。局中人A的选择称为最大最小化策略,而他的相应所得称为对策的最大最小(或下)值。
另一方面,局中人B要使他的损失达到最小。他知道,如果他采取他的第一个纯策略,那么不管A的选择,他的损失不超过max{8,6,7}=8。等等,如上表。第二个策略来使他的损失最小。这个损失是min{8,5,9,18}=5。局中人B的选择称为最小最大化策略,而他的相应损失称为这个对策的最小最大(或上)值。
本例中,最大最小(或下)值=最小最大(或上)值,此时相应的纯策略称为“最优”策略,并称这个对策有一个鞍点。
设有一零和对策G={SA , SB , Amn },我们有必要对A与B的最坏结果(或最大损失)做一分析。假设A选择了策略i,从损失的角度讲,便是A选择i策略的最大损失(即最少赢得);再在这些损失中选取最小的损失(即最大赢得)。这样,就表示A至少的赢得,注意到零和对策有,这样便表B的最大损失。
若
(5-1)
则表示A的至少赢得和B的最大损失恰好可以吻合,此时双方可以满意。称使(5-1)式成立的值为对策G的值。
若存在某纯局势使
(5-2)
则称为对策G的鞍点,支付矩阵A中的元素称为矩阵的鞍点。显然,(5-2)比(5-1)更具体化,找到了达到对策值的A策略与B的策略,从而称与分别为A和B
文档评论(0)