高级人工智能第十三章.pptVIP

下载本文档

3
0
约1.71万字
约 107页
2019-01-04 发布于浙江
举报
版权申诉

高级人工智能第十三章.ppt

1、本文档共107页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 史忠植高级人工智能 * 规则发现系统在规则发现系统中, 学习经常是首先评价系统现有的规则质量, 然后进行修改。Grefenstette 研制了一种规则发现系统RUDI。问题求解级由简化的分类器系统组成。学习级是对知识结构群体进行遗传算法操作, 每一个表示为一组规则表。知识结构的整个行为控制这些结构的复制。在RUDI中, 信用赋值方法赢利共享规划(Profit-Sharing Plan,简称PSP) 和桶链算法(BBA) 对每个规则提供互补的效用信息。根据期望的外部奖励, PSP-强度对规则效用提供更精确的评估。当问题求解时它被用作冲突消解。与此相反, BBA-强度表示规则之间的动态相关性, 规则点火依次会聚到相似水平。这种测度可以用作一组协作规则的聚类。 * 史忠植高级人工智能 * 规则发现系统 Grefenstette 提出一种强度修改方案称作嬴利共享规划PSP。在这种方案中问题求解划分成情节, 按所接受的外部奖励区分。如果任何步情节在投标竞争中获胜, 则认为该规则在该情节活动。在情节t, PSP 修改每个活动规则Ri的强度 Si(t) 如下: Si(t + 1) = Si(t) -bSi(t) + bp(t), 其中, p(t) 称作在情节结束时所获得的外部奖励, 即当获得外部奖励,从每个活动规则搜集投标, 每个活动规则给出一部分外部奖励。考虑PSP 对给定规则Ri 的影响, 它按照方程得到: * 史忠植高级人工智能 * 规则发现系统其中, t 的范围是在该情节规则 Ri 是活动的, 即Si(t) 基本上外部奖励的权值平均p(t), (1 - b) 作为指数衰减因子。如果 b 足够小,那么 S(t) 具有 p(t) 的平均值。如果外部奖励 p(t)是常数,p*, 那么Si 收敛到一个平衡值 Si*: * 史忠植高级人工智能 * 规则发现系统在常数赢利下, PSP 将以下列速率减少误差 Ei(t) = p* - Si(t) 强度每次改变, 以因子b减少当前强度与平衡强度之差。 * 史忠植高级人工智能 * 规则发现系统我们看出, 奖励相当是常数情况下, 在PSP下每个规则强度很快收敛到一个平衡强度, 可以预测情节结束时将接收的奖励水平。 PSP的一种可能的限制是它取决于这种前提, 成功外部奖励区分的情节所对应的合适区间, 在这个区间里进行信用赋值。情节的选择非常重要。 * 史忠植高级人工智能 * 规则发现系统在桶链算法BBA中, 是基于规则之间单独处理的, 可以避免有关情节的假设。假设规则 Ri 在tau 步点火, 规则 Rj 在 tau + 1 点火, 那么BBA 按照下面公式修改规则 Ri的强度 Si: 第一个改变意味BBA 在给定的情节修改规则强度多于一次。第二个改变导致PSP与BBA基本的不同。PSP强度预测所期望的情节结束获得的外部奖励是在规则点火, BBA的强度预测所期望的内部奖励是在规则的下一步。 * 史忠植高级人工智能 * 规则发现系统 RUDI的控制结构问题求解 BBA/PSP 遗传算法任务执行强度新规则信用奖励 * 史忠植高级人工智能 * PSP与BBA比较奖励：1000 0 300 初始状态结束状态 * 史忠植高级人工智能 * 不同的强度修改方案规则 PSP强度 BBA强度 1000 648 299 567 1000 645 4 644 300 300 999 531 300 300 * 史忠植高级人工智能 * 进化策略进化策略模仿自然进化原理作为一种求解参数优化问题的方法。最简单的实现方法如下: 定义的问题是寻找n维的实数向量x, 它使函数 (2) 双亲向量的初始群体从每维可行范围内随机选择。 (3) 子孙向量的创建是从每个双亲向量加上零均方差高斯随机变量。 (4) 根据最小误差选择向量为下一代新的双亲。 (5) 向量的标准偏差保持不变, 或者没有可用的计算方法, 那么处理结束。 * 史忠植高级人工智能 * 进化规划进化规划(evolutionary programming，又译为进化程序设计)的过程, 可理解为从所有可能的计算机程序形成的空间中, 有哪些信誉好的足球投注网站有高的适应值的计算机程序个体，在进化程序设计中，几百或几千个计算机程序参