网站大量收购独家精品文档,联系QQ:2885784924

MAS中的一种惩罚机制.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MAS中的一种惩罚机制 孛毅 石纯一 (清华大学计算机系,北京,100084) 摘要MAs中的市场机制是计算模型从集中向分散的控制与行为模型发艟的结果。本文引入惩罚 源与其自身能力和外部环境趋于一致,加快资源流动速度。同时对惩罚力度的调整为实现MAS的自适 应提供了一种手段。 关键词 市场机制惩罚Agenl资源王F境 1 引言 从经济学观点来看,使用市场机制是计算模型从集中向分散的控制与行为模型发展 的结果。MAS中,通过市场机制.特别是交易与价格机制能够将局部决策合并为全局 有效的合理行为,显示出大系统计算组织j二的价值。同时会使难以协调控制的问题简单 化。价格在市场交易中发挥着露要作用.适当的价格机制为对象提供必要的激励,对象 在交易中根据价格做出有利决策,并为获得最大利益而学习适应,也使资源得到合理配 置。 市场的特征是竞争,而竞争产生学习,竞争导致优胜劣汰。由于开放系统中个体知 识的不完备、迟到信息以及策略失败等原因,个体与系统会具有各种动态特性。 范围很广,并不局限于针对某一问题采用经济方法,而是将一个真实的开放分布的计葬 并发应用。实验表明,该系统的规模有较好的延展性。 但目前对于市场机制的研究主要存在如下问题:缺乏对于市场模犁的定龟分析;缺 乏对市场系统自适应性的研究;缺乏对对于开放系统中知识不完全、信息迟到、错误等 情况下,系统和个体策略的研究。本文引入惩罚机制以解决上述问题,特别是利用惩罚 开放环境中的效率,并可提供一种使系统具有自适应能力的方法。 2惩罚机制 惩罚通常是指由于二个体来能完成承诺,或违反社会规则而受到的某种制裁。它是一 种调节个体资源的行为,是保障市场正常远行的不可缺少的机制;否则,将会导致个体 行为的失控,增大个体行为的矾险,进而导致系统效率的下降,以致整个经济系统无法 运行。 利用市场机制建立MAS已有应用,但也存在着若干问题。在开放信息系统中,由 于信息的不完全性和延迟等特性,以及Agent能力的差异和环境的变化,都无法保证 Agent对价格、所需资源等问题做出正确判断。特别当Agent能力与所拥有的资源不匹 配时.将导致资源闲置或短缺,并使得系统效率下降。为了解决这些问题,参照人类社 会的市场机制.我们将惩罚的概念引入MAS的市场模型中,以使市场机制获得完善。 否与其能力保持一致.以及趋于一致的速度,将对系统效率起重要作用。引入惩罚机制 中,将会有较多的失败.这时Agent无法获得收益。还要受到相应的惩罚,从而加快了 其资源降低的速度。所以惩罚可以起到强制资源按个体能力合理流动,并加快这种流动 趋势的作用。其次,在Agent能力相对固定的情况下.随着环境的变化,Agent在系统 中的价值也在不断变化。Agent与环境的一致度越高,其对系统做出贡献的能力就越 大,因此也应拥有较多的资源。也就是说,Agent对资源的拥有,不仅应取决于其自身 能力。还应取决于与环境的一致性。引入惩罚也可以保证这一要求。当环境产生不利予 源因此丽减小。所以对于环境的变化,惩罚也将起强化作用。 以上论述说明了惩罚促使Agent资源合理减少,即劣汰的效果。同时,考虑到 Agent闯拥有资源的相对性和它们的竞争关系,某娄Agent资源的减少,必然导致其它 Agent资源的相对增多,并往往会导致其它Agent资源的实际增多,因此惩罚也会导致 优胜的局面,使得资源得到充分的合理配置,进而导致系统效率的提高。 市场机制中为了避免过犬的系统振荡,Agent决策时往往引入历史信息。但当 Agent面对开放环境时,如:任务的粒度差别很大,任务的类型、数量随时闻而变化, 依据历史信息进行决策也存在不利影响:会使系统动态特性变差,Agent间资源无法合 理、迅速地流动。因此,在市场模型中,应加入遗忘系数,使其只依据部分历史信息进 行决策。 如何使系统具有自适应性,特别是对环境变化的自适应性。也是市场机制研究所耍 面对的问题。可以分析,当环境变化较快时,遗忘系数应较大,使历史信息对决策影响 较小;当环境变化较慢时,遗忘系数应较小,使历史信息对决策影响较大。但遗忘系数 必须按历史信息扶策,并可依据可变的历史遗忘系数,同时.还应对环境变化有准确的 判断。这无疑对Agent能力提出了较高的要求,为系统构造带来困

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档