第9讲博弈论重复博弈祥解.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第9讲博弈论重复博弈祥解.ppt

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * D,D,D,D,D,D,… D,D,D,D,D,D,… T,T,T,…. T,D,T,D,T,…. T,D,D,D,D,… D,T,T,T,T,…. * 重复博弈和无名氏定理 首先证明冷酷策略是一个纳什均衡 回顾一下,所谓纳什均衡,就是这样的一个状态,对于任意一个参与人,给定其他参与人选择纳什均衡策略,该参与人都无法偏离纳什均衡策略。 因此,证明囚徒问题中冷酷策略是一个纳什均衡的方法是:给定其中任意一个参与人坚持“冷酷战略”,另外一个参与人的最优选择也是坚持冷酷战略。 * 如果i在博弈的某个阶段首先选择了坦白,在该阶段得到0单位的支付,优于选择抵赖得到的-1。 但这个机会主义行为将触发他的伙伴选择“永远坦白”的惩罚,因此i随后每个阶段的支付都是-8。(-1是奖励,-8是惩罚) 因此,如果下列条件满足,给定对手没有选择坦白,i将不会选择坦白 这个不等式是否正确? 有限和无限的不同,希尔伯特旅馆的故事 * 另外一种计算方法 这个策略为什么不适用于两阶段(有限)重复博弈? 因为有逆向归纳法:大家在第二阶段肯定都坦白,也即,第二阶段肯定是-8,不会有-1 * 所以,无限很重要 给你100万,你愿意今天要这个钱还是明天(10年后)要这个钱?Why? 今天的钱并不等于明天的钱:利率 明天的钱并不等于今天的钱:贴现率 * 贴现率 将未来资产折算成现值(present value)的利率,一般是用当时零风险的利率来当作贴现率,但并不是绝对。    举个例子:贴现率为10%,明年的100块在今年就相当于100/(1+10%)=90.909090...块钱,到了去年就是100/(1+10%)*(1+10%),也就是说,今年用90.909090...块可以买到的东西相当于明年100块可以买到的东西。? 今天投资100万元的项目,将来如能收回200万,也不能证明此项投资一定有效。因为如果这回收的200万要等50年之后,今天衡量的价值就远低于100万。这是由于如果利率是3%,100万元存银行,50年内得到的利息也将达338万元(利率为2%的话,50年的利息为169万元)。所以50年后回收200万的投资与存银行得利息相比不值得去做。 贴现率:将来的钱现在花,把将来的钱借给现在 利率:现在的钱存起来将来花,把现在的钱借给将来 * 考虑贴现因子的重复博弈 设a为贴现因子(假定两人贴现因子相同)。贴现因子=1/(1+贴现率) 如果i在博弈的某个阶段首先选择了坦白,在该阶段得到0单位的支付,优于选择抵赖得到的-1。 但这个机会主义行为将触发他的伙伴选择“永远坦白”的惩罚,因此i随后每个阶段的支付都是-8。 因此,如果下列条件满足,给定对手没有选择坦白,i将不会选择坦白 即 * a ≥ 1/8 a太小,则将来的钱根本不管用,将来不值得期待(有未来,但是更期待今天) 因此,冷酷战略是一个纳什均衡。 * 重复博弈和无名氏定理 该策略是否是子博弈精炼均衡? 因为博弈重复无限次,从任何一个阶段开始的子博弈与这个博弈的结构完全相同。 在冷酷战略均衡下,子博弈可以分为两类:在类型a,没有任何参与人曾经坦白;在类型b,至少有一个参与人曾经坦白。 * 重复博弈和无名氏定理 在类型a中,我们已经证明,冷酷战略在a类型子博弈中构成纳什均衡; 在b类子博弈中,根据冷酷战略,参与人只是重复单阶段博弈的纳什均衡,因此也是子博弈的纳什均衡。 因此,如果a ≥ 1/8,冷酷战略是无限次囚徒博弈的一个子博弈精炼纳什均衡。 * 重复博弈和无名氏定理 该博弈还有许多其他子博弈精炼均衡。 各期都坦白,是另一个子博弈精炼纳什均衡 子博弈精炼均衡的多重性是无限次重复博弈的普遍问题。 * 更多例子 无限次重复古诺模型 支持垄断产量的条件:P194-195 低水平的合作:P195-197 加大惩罚力度和提高合作水平:P197-199 复杂的现实(OPEC):P199-200 工资:P200-205 * * Axelrod (1984) Tit-for-tat 是成功率最高的战略 * * 惩罚与合作 Abreu(1986):最大合作战略是使用最严厉的可信惩罚(the strongest credible punishment); 维护合作并不需要无限期的惩罚;只要惩罚期足够长就可以了; 萝卜加大棒(stick and carrot): 从合作开始,一直合作直到:如果有任何一方在t期不合作,在t+1期,前期合作者选择“不合作”来实施惩罚,前期不合作者选择合作;如果该合作的没有合作或者该惩罚的没有惩罚,在t+2期继续按照上述t+

文档评论(0)

love + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档