第五章_重复博弈.docVIP

下载本文档

41
0
约7.33千字
约 17页
2018-06-11 发布于江西
举报
版权申诉

第五章_重复博弈.doc

1、本文档共17页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第五章_重复博弈.doc

第五章_重复博弈未来存在收益流R1，R2，R3，…，那么这个未来收益流的贴现值之和就为其中称为贴现因子(Discount factor)。我们考虑一个随机结束重复博弈，即进行一个重复博弈时，每次都通过抽签来决定是否停止重复，如果抽到停止的概率为P，则抽到重复下去的概率为1-P。设某博弈方在下一阶段的博弈中得到的收益为R1，利率为r，因为继续博弈的概率为1-P，么在当前阶段硬币未抛之前的价值（即贴现后的期望值）为(1 – p)R1/(1+ r)；如果下两阶段能得到的收益为R2，在当前阶段硬币未抛之前的价值为(1 – p)??R2/(1+ r)??；下三阶段、四阶段等等的收益，照此类推。令，则贴现因子既包含了货币的时间价值（贴现率1/(1+r)），又包含了博弈结束的可能性(1 – p)。其中Rmax = max{R1, R2, R3, …}，即Rmax为收益流中的最大值。同理，考虑一个无穷期的情况，如果t 期的收益为Rt，贴现因子为，那么收益流的贴现值为其中Rmin={R1, R2, R3, …}，即Rmin为收益流中的最小值。就这意味着，存在一个R使得 R就被称为收益流(R1, R2, R3, …)的贴现平均收益值。对于不同的策略，显然对应着不同的贴现平均收益值，通过比较平均收益值就能非常方便地知道什么是最优策略。定义5.1 设贴现因子为，收益流(R1, R2, R3, …)的贴现平均收益值为由于平均收益值等于贴现值之和V的倍，使贴现平均收益值最大化就等同于使贴现值之和最大化。使用平均收益的另一个优点，就是我们可以利用它直接和阶段博弈中的收益进行比较,从而更容易知道哪一个策略要优。对于重复博弈中参与者的偏好，同学们可能认为只要照搬前面的收益函数就可以了，而这实际上是不对的。为什么呢？我们知道在确定性下，表达相同偏好的收益函数并不唯一，而是满足单调变换性，即只要f是一个单调递增函数，那么与就表示同一个偏好。但在（无穷）重复博弈中，整个博弈的收益函数为它实际上为阶段博弈G的收益函数u(s)的一个贴现和，我们把u(s)也称为伯努利收益函数，因为它也像v-N-M偏好一样，要求u(s)必须满足线形变换，即只有当f = 8#004699a + bu(s)，bgt;0时，f 和u才表示相同的重复博弈偏好。因为这时的v实际上是预期收益函数。二、重复博弈的定义及扩展式定义5.2对于策略式博弈G = {N , S , u}，其中N={1, 2,…, n}为参与者集合，S ={S1 ,…, Sn}为所有参与者的策略空间（策略实际上就是行动），u ={u1, …, un}为所有参与者的收益函数。如果G在时间中（或程序上）不断重复，并且在下一次博弈G开始前，所有以前博弈的历史都被观察到，那么它构成的动态博弈就称之为重复博弈，G就为重复博弈中的阶段博弈。如果G重复进行T次，那么G(T)就表示重复进行T次的有限重复博弈。如果T = ∞，那么G(T)就表示无限重复博弈。重复博弈G(T)中参与者i的偏好用收益函数vi表示，即其中为伯努利收益函数，为重复博弈t阶段的行动组合(T gt; t gt;1)，为贴现因子，Ri为参与者i的贴现平均收益值，等于为了更为形象，我们引入一个重复信用困境博弈，其阶段博弈G的博弈矩阵如图5-1所示。第二节合作产生的原因 1，1 5，0 欺骗 0，5 4，4 诚信商人1 欺骗诚信商人 2 图5-1 信用困境实际上，运用逆推法，很容易证明，只要重复博弈进行的次数是有限的，那么（欺骗，欺骗）这样的结果会在每一个阶段博弈中出现。上述的直观认识具有普遍意义。如果阶段博弈G存在唯一纳什均衡，那么G(T)的子博弈完美均衡不过是纳什均衡重复T次，根本的原因是，如果最后一个子博弈G(1)存在唯一的纳什均衡，那么无论前面的历史如何都不会改变最后一个子博弈的均衡结果（反正过去的已经成为过去），因而G(T)的完美均衡不过是G的纳什均衡重复T次，这就有了命题5.1。命题5.1 如果阶段博弈G有唯一的纳什均衡，则对任意有限的T，重复博弈G(T)有唯一的子博弈完美均衡：即G的纳什均衡结果在每一个阶段重复进行。利用命题5.1可知，无论信用困境重复多少次，只要不是无穷的，那么唯一的均衡结果只能是每一阶段都为（欺骗，欺骗），因而人类社会所谓的合作根本就不可能产生，人与人之间的诚信只能是一种奢望。然而，现实并非如此，虽然人与