重复博弈囚徒困境重复博弈囚困境徒困境.ppt

重复博弈囚徒困境重复博弈囚困境徒困境.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
重复博弈囚徒困境重复博弈囚困境重复博弈囚徒困境重复博弈囚徒困境

1.6 重复博弈 一、有限重复博弈 定义: 对于完全信息博弈 ,其中 I=(1,2,…,n)为参与者集合, 为所有参与者的策略空间, 为所有参与者的收益函数,如果G在时间上(程序上)不断重复,并且在下一次博弈G开始前,所有以前博弈的历史都被观察到,那么它构成的动态博弈就称之为重复博弈,G就为重复博弈中的阶段博弈。如果G重复进行T次,那么G(T)就表示重复进行T次的有限重复博弈。如果G重复进行 次,那么G( )就表示无限重复博弈。 二、序贯博弈与重复博弈 1、序贯博弈:参与人在前一个阶段的行动选择决定随后的子博弈结构,从后一个决策节开始的博弈不同于从前一个决策节开始的博弈。 2、重复博弈:简单地说,就是同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。阶段博弈可以是静态博弈,也可以是动态博弈; 3、重复博弈的三项特征: (1)阶段博弈之间没有“物质上”的联系;序贯博弈涉及到物质上的联系。 (2)所有参与人观测到博弈过去的历史; (3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。 4、参与人在某一阶段的博弈选择依赖于其他参与人过去的行动历史,所以,参与人在重复博弈中的战略空间远远大于和复杂于在每一个阶段博弈中的战略空间。这一点意味着,重复博弈可能带来一些“额外的”均衡结果,这些均衡结果在一次性博弈中是从来不会出现的。 5、影响重复博弈均衡结果的主要因素是博弈的重复次数。重复次数的重要性来源于参与人在短期利益和长远利益之间的权衡。 2.5—1 有限次重复博弈:连锁店悖论 例1:见下图市场进入博弈,假定同样的市场有20个,其均衡会与单个市场不同吗? 均衡1:进入者总是选择进入,在位者选择默许; 均衡2:在位者选择斗争,进入者总是选择不进入。 定理1、如果阶段博弈G有惟一的纳什均衡,则对任意有限的T,重复博弈G(T)有惟一的子博弈完美纳什均衡,即G的纳什均衡结果在每一个阶段重复进行。 注意:此定律的一个重要条件是:单阶段博弈存在“唯一”的纳什均衡。 例2:重复博弈举例 1、参与人:商人1, 商人2; 2、行动空间:都是诚信、欺骗; 3、博弈次数:两次; 4、支付函数: 见图2所示。 逆推到第一阶段,将第二阶段的纳什均衡收益代入,则如图3所示。 有限重复博弈纳什 均衡是(欺骗,欺骗) 此题解释了现实中 存在的一类现象—— 普遍的欺诈行为;没有解释另一类现象——广泛的合作。 为了在理论上容纳合作解,博弈论主要从三个方面来加以发展: 一是引入多重均衡; 二是引入无限重复博弈; 三是引入信息不完全。 2.5—2 无限重复博弈 1、合作解要在有限重复博弈申出现要求阶段博弈G必须存在多重纳什均衡,但在无限重复博弈中这一条件并不是必需的:即使阶段博弈G只存在惟一纳什均衡,无限重复博弈中也可以存在子博弈完美纳什均衡解,其中没有任何一个阶段结果是G的纳什均衡。显然这和定理1 相对立,根本的原因就在于博弈可以进行无限期。如果博弈是无限的,那么长远利益就要好于短期利益。 2、解开连锁店难题的办法之一是引入信息的不完全性,或者博弈重复无限次,或者重复未知的次数。 (一)数学分析 假设利率r,则贴现率为:1/(1+r),贴现因子 ,一般的有1/(1+r)= ; 有了贴现因子,我们就能比较无限博弈中的不 同收益值。 收益值计算法如下: 如果未来的收益系列为: 其收益流现值为: 如果每一期的收益都是R,则贴现值为: 例4:仍考察信用困境博弈 1、单阶段博弈是: (欺骗,欺骗) 2、无限重复博弈中子 博弈精练纳什均衡有可能为: 每一阶段都是合作:(诚信,诚信); 3、此博弈的可能完美均衡: 触发策略,又叫冷酷战略; (二)证明冷酷战略 战略表述:在第一阶段选择诚信,且如果所有前面t一1阶段的结果都是(诚信,诚信),则在第t阶段,选择诚信,否则选择欺骗,并永久欺骗下去。 1、先证明此战略是纳什均衡:即如果给定参与者j的策略为触发策略,那么参与者i的最优反应也是触发策略,即触发策略是彼此策略的最优反应。假设 与1足够接近的条件下,我们用计算来证明; 参与者j在某阶段选择欺骗

文档评论(0)

cxiongxchunj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档