网站大量收购独家精品文档,联系QQ:2885784924

第五章_重复博弈.docVIP

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章_重复博弈.doc

第五章_重复博弈 未来存在收益流R1,R2,R3,…,那么这个未来收益流的贴现值之和就为 其中 称为贴现因子(Discount factor)。 我们考虑一个随机结束重复博弈,即进行一个重复博弈时,每次都通过抽签来决定是否停止重复,如果抽到停止的概率为P,则抽到重复下去的概率为1-P。设某博弈方在下一阶段的博弈中得到的收益为R1, 利率为r,因为继续博弈的概率为1-P,么在当前阶段硬币未抛之前的价值(即贴现后的期望值)为(1 – p)R1/(1+ r);如果下两阶段能得到的收益为R2,在当前阶段硬币未抛之前的价值为(1 – p)??R2/(1+ r)??;下三阶段、四阶段等等的收益,照此类推。 令 ,则贴现因子既包含了货币的时间价值(贴现率1/(1+r)),又包含了博弈结束的可能性(1 – p)。 其中Rmax = max{R1, R2, R3, …},即Rmax为收益流中的最大值。同理, 考虑一个无穷期的情况,如果t 期的收益为Rt,贴现因子为 ,那么收益流的贴现值为 其中Rmin={R1, R2, R3, …},即Rmin为收益流中的最小值。就这意味着,存在一个R使得 R就被称为收益流(R1, R2, R3, …)的贴现平均收益值。 对于不同的策略,显然对应着不同的贴现平均收益值,通过比较平均收益值就能非常方便地知道什么是最优策略。 定义5.1 设贴现因子为 ,收益流(R1, R2, R3, …)的贴现平均收益值为 由于平均收益值等于贴现值之和V的 倍,使贴现平均收益值最大化就等同于使贴现值之和最大化。使用平均收益的另一个优点,就是我们可以利用它直接和阶段博弈中的收益进行比较,从而更容易知道哪一个策略要优。 对于重复博弈中参与者的偏好,同学们可能认为只要照搬前面的收益函数就可以了,而这实际上是不对的。为什么呢?我们知道在确定性下,表达相同偏好的收益函数并不唯一,而是满足单调变换性,即只要f是一个单调递增函数,那么 与 就表示同一个偏好。但在(无穷)重复博弈中,整个博弈的收益函数为 它实际上为阶段博弈G的收益函数u(s)的一个贴现和,我们把u(s)也称为伯努利收益函数,因为它也像v-N-M偏好一样,要求u(s)必须满足线形变换,即只有当f = 8#004699a + bu(s),bgt;0时,f 和u才表示相同的重复博弈偏好。因为这时的v实际上是预期收益函数。 二、重复博弈的定义及扩展式 定义5.2对于策略式博弈G = {N , S , u},其中N={1, 2,…, n}为参与者集合,S ={S1 ,…, Sn}为所有参与者的策略空间(策略实际上就是行动),u ={u1, …, un}为所有参与者的收益函数。如果G在时间中(或程序上)不断重复,并且在下一次博弈G开始前,所有以前博弈的历史都被观察到,那么它构成的动态博弈就称之为重复博弈,G就为重复博弈中的阶段博弈。如果G重复进行T次,那么G(T)就表示重复进行T次的有限重复博弈。如果T = ∞,那么G(T)就表示无限重复博弈。重复博弈G(T)中参与者i的偏好用收益函数vi表示,即 其中 为伯努利收益函数, 为重复博弈t阶段的行动组合(T gt; t gt;1),为贴现因子,Ri为参与者i的贴现平均收益值,等于 为了更为形象,我们引入一个重复信用困境博弈,其阶段博弈G的博弈矩阵如图5-1所示。 第二节 合作产生的原因 1,1 5,0 欺骗 0,5 4,4 诚信 商人1 欺骗 诚信 商人 2 图5-1 信用困境 实际上,运用逆推法,很容易证明,只要重复博弈进行的次数是有限的,那么(欺骗,欺骗)这样的结果会在每一个阶段博弈中出现。上述的直观认识具有普遍意义。如果阶段博弈G存在唯一纳什均衡,那么G(T)的子博弈完美均衡不过是纳什均衡重复T次,根本的原因是,如果最后一个子博弈G(1)存在唯一的纳什均衡,那么无论前面的历史如何都不会改变最后一个子博弈的均衡结果(反正过去的已经成为过去),因而G(T)的完美均衡不过是G的纳什均衡重复T次,这就有了命题5.1。 命题5.1 如果阶段博弈G有唯一的纳什均衡,则对任意有限的T,重复博弈G(T)有唯一的子博弈完美均衡:即G的纳什均衡结果在每一个阶段重复进行。 利用命题5.1可知,无论信用困境重复多少次,只要不是无穷的,那么唯一的均衡结果只能是每一阶段都为(欺骗,欺骗),因而人类社会所谓的合作根本就不可能产生,人与人之间的诚信只能是一种奢望。然而,现实并非如此,虽然人与

您可能关注的文档

文档评论(0)

zhangningclb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档