博弈论(第七讲)分解.pptx

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七讲 混合策略纳什均衡 Yang Ling 第7讲 混合策略纳什均衡:引例 纳什均衡何在? 第7讲 混合策略纳什均衡 基本概念 混合策略纳什均衡的定义 混合策略纳什均衡的解法 混合策略纳什均衡举例 纯冲突与防范行为博弈 7.1 基本概念(上) 在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件,简称事件。 概率:事件的概率就是这个事件在无限次试验中发生的频率。 当两个事件独立时,两个事件共同发生的概率就是事件单独发生的概率的乘积。(举例) 随机变量:表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)各种结果的变量。 随机变量的期望值是随机变量可能实现值的加权。(举例) 7.1 基本概念(中) 对于一组特定的条件,一个人的选择可以被描述为选择最高的期望收益的行为。 60*0.4+180*0.6=132100,会选择Tapenade。 7.1 基本概念(下) 120 当效用仅包含一个人如何对不同选择进行排列这一信息时,这种效用是有序的,但这种效用自身的数值是没有意义的,这种效用叫做序数效用。 当面临不确定因素时,效用等级开始起作用,而不仅仅是效用所暗含的结果排序。此时,效用不仅暗示着排序,也包含了偏好的强烈程度。当效用的相应等级包含信息时,这种效用称为基数效用。 7.2 混合策略纳什均衡的定义 将“街道”和“花园”称为两个参与者的纯策略。 每个参与者有使他的纯策略随机化的选择,称为混合策略。 在该博弈中,混合策略是[0,1]区间上的一个实数,这个数值就是选择街道的概率。 用p表示警察去街道巡逻的概率,(1-p)就是警察去公园巡逻的概率。 用d表示毒贩去街道交易的概率,(1-d)就是毒贩去公园交易的概率。 7.2 混合策略纳什均衡的定义 在策略组合(p,d)下,警察的支付为。 在策略组合(p,d)下,毒贩的支付为: 7.2 混合策略纳什均衡的定义 警察的纯策略选择“街道”,相当于p=1,纯策略选择“公园”,相当于p=0。 VPO(1,d)=60-60-50d+130d=80d VPO(0,d)=60-50d 很显然,当d6/13时,选择p=0优于选择p=1。 p=0不仅优于p=1,而且优于p为其他任何值的选择: 7.2 混合策略纳什均衡的定义 当d6/13时,VPO(0,d)VPO(1,d) 因为VPO(p,d)是VPO(1,d)和VPO(0,d)的加权平均数, 只要VPO(0,d)大于VPO(1,d),VPO(0,d)就大于VPO(1,d)与VPO(0,d)的加权平均数。总之,当d6/13时,p=0是警察的最佳选择。 同理,当d6/13时,p=1是警察的最佳选择。 7.2 混合策略纳什均衡的定义 当d=6/13时,对于警察而言,选择去街道和去公园所得到的期望效用是一样的。进一步讲,无论p为何值,期望效用都一样。 混合策略纳什均衡为(5/13,6/13) 7.2 混合策略纳什均衡的定义 【混合策略纳什均衡的正式定义】 【要点提示】 1.要使一个混合策略称为最优反应,它必须只对那些属于最优反应的纯策略取概率正值。 2.每个有限博弈的混合策略中都有纳什均衡。 7.3 混合策略纳什均衡的解法 在毒品交易博弈的纳什均衡中,毒贩在街道的概率为6/13,在公园的概率为7/13。毒贩的这种随机化是比较合理,因为这将使警察无从下手。警察在街道的概率为5/13,在公园的概率为8/13。警察的这种随机化也是比较合理,因为这将使毒贩无从下手。 当警察在街道的概率为5/13时,毒贩选择街道的期望收益为(5/13)*20+(8/13)*90=820/13;毒贩选择公园的期望收益也为(5/13)*100+(8/13)*40=820/13。 当对面临的选择漠不关心时,随机化一个选择集合无疑是一个最佳选择。 因此,毒贩选择在街道的概率为6/13,是其最佳选择,因为在这种情况下,警察选择街道和公园的预期收益也是一样的。 7.3 混合策略纳什均衡的解法 如果使纯策略随机化是最佳选择,那么参与者从任意纯策略中获得的期望收益相同。 如果毒贩随机化其策略,那么警察必须选择混合策略才能使毒贩做出任意选择的机会均等。 具体而言,警察的均衡策略是使毒贩从其两个纯策略中获得相等预期收益的p值: p*20+(1-p)*90=p*100+(1-p)*40推出p=5/13 毒贩的均衡策略是使警察从其两个纯策略中获得相等预期收益的d值: d*80+(1-d)*0=

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档