网站大量收购闲置独家精品文档,联系QQ:2885784924

重复性混合策略博弈的学习.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
重复性混合策略博弈的学习.pdf

信息系统协会中国分会第一届学术年会 ———————————————————————————————————————————‘二一二_一:二· - 一. 重复性混合策略博弈的学习木 孔怡青1,陈岩2 (1.江南大学信息学院,无锡214122;2.复旦大学管理学院,上海200433) 文摘:在博弈中,每个参与人都尽量使自己的期望效用最大化,如何做到期望效用最大化取决于参与人认为其对手 将如何行动,博弈学习就是研究如何形成这些预期。本文主要研究isaibuchi[4]提出的企业选择市场模型,并且采用混 合策略进行学习,属子重复性同时行动博弈。学习算法的调整过程通过假设每一阶段参与人选择一种相对子前一阶段 是最优反应的策略而得到。重复性基于混合策略的企业选择市场模型的学习算法使用投入的市场数目作为参数,通过 实验表明,学习算法使平均效用得到了提高。 关键词:重复性博弈;混合策略博弈;博弈学习 这一博弈较之‘‘囚徒困境”等博弈要复杂得多‘31。 1 引言 3博弈学习 所谓博弈(Game Theory)吲,是研究彼此处于 冲突与合作关系中,具有独立行为能力的多个决策 在博弈中,每个参与人都尽量使自己的期望效 主体之间的具有交互性的决策行为。博弈论以数学 用最大化,如何做到期望效用最大化取决于参与人 模型为主要的分析方法。处于任何一个博弈中的若 认为其对手将如何行动,博弈学习就是研究如何形 成这些预期。假设参与人f相信对手的行动分布对 干决策者,称之为参与人(players)。参与人存在若 应于策略组合一,那么参与人f应该采取最优反 干策略(strategies)或行动(actiOnS),参与人的所 有策略构成策略组合。各参与人对所有参与人不同 应,即采取策略∥使得对于任意的一,有 策略组合构成的博弈局势的主观偏好,称之为参与 “‘(∥,S一)≥ui(s‘,s一)。相对于Sq的所有最优反应的 集合记为BR’(j一),因此,∥∈BR‘(s一)。 人的效用(payoff)。参与人、各参与人的策略组合 以及各参与人的效用函数,是博弈中重要的基本要 在库诺特【J】(寡头垄断决定产量的非合作博弈) 素。在博弈中,参与人被认为是追求效用最大化的。 模型中,时间期间t=l,2,…是离散的,有一个初始 为了追求效用最大化,就必须区分一个参与人的行 的状态组合eo∈s。调整过程本身是通过假设每一 动及其对手的行动。 阶段参与人选择一种相对于前一阶段是最优反应 2企业选择市场模型 的纯策略得到的。即在每个时期t,参与人f选择纯 在企业选择市场的模型中,每个企业角色只有 其中fo(印;BR‘(町‘)。在该调整模型中,参与人 一个代理人,即参与人i,参与人是企业江l,2,…,,l。 预计对手将采取与上一期相同的策略,所以采取相 每一个参与人的策略就是选择要出售某一同质商 应的最优反应。 品的市场S‘∈(1,2,…,m)。s一表示参与人f的对手 4企业选择市场模型的纯策略学习 的策略。策略组合是由咒个参与人的所有策略构成 的向量,用S∈s表示。U‘(一,S叫)为参与人i对局势 在【4】文中,Ishibuchi提出了企业选择市场模型 s=(,,j一)的效用,歙‘(s一)表示参与人f对一个策的纯策略学习,该学习与库诺特调整模型类似,调 整过程是通过假设每一阶段参与人选择一种相对 略的最优反

文档评论(0)

带头大哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档