重复性混合策略博弈的学习.pdf

下载文档 降价啦

18
0
约 5页
2017-03-27 发布于广东
举报
版权申诉
保障服务

重复性混合策略博弈的学习.pdf

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

重复性混合策略博弈的学习.pdf

信息系统协会中国分会第一届学术年会 ———————————————————————————————————————————‘二一二_一：二· - 一．重复性混合策略博弈的学习木孔怡青1，陈岩2 (1．江南大学信息学院，无锡214122；2．复旦大学管理学院，上海200433) 文摘：在博弈中，每个参与人都尽量使自己的期望效用最大化，如何做到期望效用最大化取决于参与人认为其对手将如何行动，博弈学习就是研究如何形成这些预期。本文主要研究isaibuchi[4]提出的企业选择市场模型，并且采用混合策略进行学习，属子重复性同时行动博弈。学习算法的调整过程通过假设每一阶段参与人选择一种相对子前一阶段是最优反应的策略而得到。重复性基于混合策略的企业选择市场模型的学习算法使用投入的市场数目作为参数，通过实验表明，学习算法使平均效用得到了提高。关键词：重复性博弈；混合策略博弈；博弈学习这一博弈较之‘‘囚徒困境”等博弈要复杂得多‘31。 1 引言 3博弈学习所谓博弈(Game Theory)吲，是研究彼此处于冲突与合作关系中，具有独立行为能力的多个决策在博弈中，每个参与人都尽量使自己的期望效主体之间的具有交互性的决策行为。博弈论以数学用最大化，如何做到期望效用最大化取决于参与人模型为主要的分析方法。处于任何一个博弈中的若认为其对手将如何行动，博弈学习就是研究如何形成这些预期。假设参与人f相信对手的行动分布对干决策者，称之为参与人(players)。参与人存在若应于策略组合一，那么参与人f应该采取最优反干策略(strategies)或行动(actiOnS)，参与人的所有策略构成策略组合。各参与人对所有参与人不同应，即采取策略∥使得对于任意的一，有策略组合构成的博弈局势的主观偏好，称之为参与 “‘(∥，S一)≥ui(s‘，s一)。相对于Sq的所有最优反应的集合记为BR’(j一)，因此，∥∈BR‘(s一)。人的效用(payoff)。参与人、各参与人的策略组合以及各参与人的效用函数，是博弈中重要的基本要在库诺特【J】(寡头垄断决定产量的非合作博弈) 素。在博弈中，参与人被认为是追求效用最大化的。模型中，时间期间t=l，2，…是离散的，有一个初始为了追求效用最大化，就必须区分一个参与人的行的状态组合eo∈s。调整过程本身是通过假设每一动及其对手的行动。阶段参与人选择一种相对于前一阶段是最优反应 2企业选择市场模型的纯策略得到的。即在每个时期t，参与人f选择纯在企业选择市场的模型中，每个企业角色只有其中fo(印；BR‘(町‘)。在该调整模型中，参与人一个代理人，即参与人i，参与人是企业江l，2，…，，l。预计对手将采取与上一期相同的策略，所以采取相每一个参与人的策略就是选择要出售某一同质商应的最优反应。品的市场S‘∈(1，2，…，m)。s一表示参与人f的对手 4企业选择市场模型的纯策略学习的策略。策略组合是由咒个参与人的所有策略构成的向量，用S∈s表示。U‘(一，S叫)为参与人i对局势在【4】文中，Ishibuchi提出了企业选择市场模型 s=(，，j一)的效用，歙‘(s一)表示参与人f对一个策的纯策略学习，该学习与库诺特调整模型类似，调整过程是通过假设每一阶段参与人选择一种相对略的最优反