- 1、本文档共39页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七讲 混合策略纳什均衡
Yang Ling
第7讲 混合策略纳什均衡:引例
纳什均衡何在?
第7讲 混合策略纳什均衡
基本概念
混合策略纳什均衡的定义
混合策略纳什均衡的解法
混合策略纳什均衡举例
纯冲突与防范行为博弈
7.1 基本概念(上)
在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件,简称事件。
概率:事件的概率就是这个事件在无限次试验中发生的频率。
当两个事件独立时,两个事件共同发生的概率就是事件单独发生的概率的乘积。(举例)
随机变量:表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)各种结果的变量。
随机变量的期望值是随机变量可能实现值的加权。(举例)
7.1 基本概念(中)
对于一组特定的条件,一个人的选择可以被描述为选择最高的期望收益的行为。
60*0.4+180*0.6=132100,会选择Tapenade。
7.1 基本概念(下)
120
当效用仅包含一个人如何对不同选择进行排列这一信息时,这种效用是有序的,但这种效用自身的数值是没有意义的,这种效用叫做序数效用。
当面临不确定因素时,效用等级开始起作用,而不仅仅是效用所暗含的结果排序。此时,效用不仅暗示着排序,也包含了偏好的强烈程度。当效用的相应等级包含信息时,这种效用称为基数效用。
7.2 混合策略纳什均衡的定义
将“街道”和“花园”称为两个参与者的纯策略。
每个参与者有使他的纯策略随机化的选择,称为混合策略。
在该博弈中,混合策略是[0,1]区间上的一个实数,这个数值就是选择街道的概率。
用p表示警察去街道巡逻的概率,(1-p)就是警察去公园巡逻的概率。
用d表示毒贩去街道交易的概率,(1-d)就是毒贩去公园交易的概率。
7.2 混合策略纳什均衡的定义
在策略组合(p,d)下,警察的支付为。
在策略组合(p,d)下,毒贩的支付为:
7.2 混合策略纳什均衡的定义
警察的纯策略选择“街道”,相当于p=1,纯策略选择“公园”,相当于p=0。
VPO(1,d)=60-60-50d+130d=80d
VPO(0,d)=60-50d
很显然,当d6/13时,选择p=0优于选择p=1。
p=0不仅优于p=1,而且优于p为其他任何值的选择:
7.2 混合策略纳什均衡的定义
当d6/13时,VPO(0,d)VPO(1,d)
因为VPO(p,d)是VPO(1,d)和VPO(0,d)的加权平均数, 只要VPO(0,d)大于VPO(1,d),VPO(0,d)就大于VPO(1,d)与VPO(0,d)的加权平均数。总之,当d6/13时,p=0是警察的最佳选择。
同理,当d6/13时,p=1是警察的最佳选择。
7.2 混合策略纳什均衡的定义
当d=6/13时,对于警察而言,选择去街道和去公园所得到的期望效用是一样的。进一步讲,无论p为何值,期望效用都一样。
混合策略纳什均衡为(5/13,6/13)
7.2 混合策略纳什均衡的定义
【混合策略纳什均衡的正式定义】
【要点提示】
1.要使一个混合策略称为最优反应,它必须只对那些属于最优反应的纯策略取概率正值。
2.每个有限博弈的混合策略中都有纳什均衡。
7.3 混合策略纳什均衡的解法
在毒品交易博弈的纳什均衡中,毒贩在街道的概率为6/13,在公园的概率为7/13。毒贩的这种随机化是比较合理,因为这将使警察无从下手。警察在街道的概率为5/13,在公园的概率为8/13。警察的这种随机化也是比较合理,因为这将使毒贩无从下手。
当警察在街道的概率为5/13时,毒贩选择街道的期望收益为(5/13)*20+(8/13)*90=820/13;毒贩选择公园的期望收益也为(5/13)*100+(8/13)*40=820/13。
当对面临的选择漠不关心时,随机化一个选择集合无疑是一个最佳选择。
因此,毒贩选择在街道的概率为6/13,是其最佳选择,因为在这种情况下,警察选择街道和公园的预期收益也是一样的。
7.3 混合策略纳什均衡的解法
如果使纯策略随机化是最佳选择,那么参与者从任意纯策略中获得的期望收益相同。
如果毒贩随机化其策略,那么警察必须选择混合策略才能使毒贩做出任意选择的机会均等。
具体而言,警察的均衡策略是使毒贩从其两个纯策略中获得相等预期收益的p值:
p*20+(1-p)*90=p*100+(1-p)*40推出p=5/13
毒贩的均衡策略是使警察从其两个纯策略中获得相等预期收益的d值:
d*80+(1-d)*0=
文档评论(0)