- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chap7 状态空间有哪些信誉好的足球投注网站 人工智能课程 上海交大
状态空间有哪些信誉好的足球投注网站 第7章 能计划的a g e n t 人无远虑,必有近忧。 —孔子 7.1 存储与计算 响应型a g e n t 几乎没有做任何计算。从本质上讲,这些a g e n t执行的动作或者由它们的设计者、或者通过学习、或者通过演化过程、或者是由以上几方面的组合而选择的。 这些动作能够通过表、产生规则描述给定特征向量动作的组合逻辑电路来实现。 在计算机科学中,这种实现倾向于经典的时空权衡的“空间”一方。它们是基于空间或存储的实现——对设计者知识的汇编。 时间换取空间 一个能在复杂环境下执行复杂任务的反应型机器需要大量(也许是无法计算的)的存储。 这样一个反应型机器的设计者需要有超人类的预见能力,要为该机器能遇到的所有可能情况预期一个合适的反应。 这启发我们可以考虑用时间换取空间,用适应性代替显式的设计。 首先,考虑反应型机器设计者必须做的一些计算的动作函数。这些计算当然会需要时间,但是 它们将减少a g e n t的存储要求和设计者的负担。 7.2 状态空间图 一个有A、B、C三个玩具积木的网格空间,开始时,三个积木都在地板上。假如机器人的任务是把它们堆起来以便A在B 的上面,B在C的上面,C在地板上。 假定机器人能够对其每一个动作对环境的建模结果,它可以通过一对环境模型—一个代表动作执行前的环境状态,另一个代表动作执行后的环境状态—来建模。 假设机器人能够把其上没有任何其他积木的积木x移到另一个地方y,y或是地板或是其上没有其他积木的积木。可以通过一个模式的实例对这些动作建模,该模式表示为move (x, y),其中x可以是A、B或C中的任何一个, y可以是A、B、C和地板中的任何一个。因此,算子是动作的模型。 向前看发现捷径 在一个模拟环境中,只向前看一步常常就能产生有用的预期效果,但是多看几步,也许直到任务完成的所有步骤都看到后就会发现一些捷径,从而避免走弯路。跟踪几个可选动作序列结果的最有用的结构是有向图。一个a g e n t通过它的动作产生的环境集合能用一个有向图表示。 有向图的节点代表每个环境,弧代表算子。 状态空间图 如果大量可区分的环境状态足够小,那么一个代表所有可能动作和状态的图就能被显式地存储。例如,图7 - 2显示了所有的状态和相关移动来操作三个积木。这种环境模型和动作图被称为状态空间图(state-space graph)。 规划 顺着路径到达目标的所有弧的算子可以组合成称为一个序列的计划。有哪些信誉好的足球投注网站这个序列的过程称为规划。 这种从一系列动作结果得到的世界状态的预测过程称为规划方案。 7.3 显式状态空间有哪些信誉好的足球投注网站 显式图有哪些信誉好的足球投注网站方法涉及到在图节点上传播“标记”。我们把开始节点标记为0 ,然后顺着图的边,连续传播更大的整数直至遇到目标节点。然后,顺着数字下降序列从目标点回溯到开始节点。顺着开始点到目标点路径上的动作序列就是获得目标应该采取的动作。 这种方法需要O(n)步,n是图中的节点数目。 有哪些信誉好的足球投注网站过程中放在节点上的数字可以作为该节点上的一种人工式势函数,并且开始节点有一个全局最小值。相反路径(从目标到开始)顺着这个函数的“梯度”下降。 扩展 把标记一个节点的后继节点的过程称为扩展。扩展将标记放在所有已标记过的节点的未标记的相邻节点上。应将哪一个已标记但还没有扩展的节点作为下一个扩展点是一个很重要的效率问题。 在广度优先有哪些信誉好的足球投注网站中,下一个要扩展的节点是其节点标识数不大于任何其他没有扩展的节点标识数的节点。也就是说,在扩展标识为j的节点之前,先要扩展标识为i的所有节点,条件是i j。 7.4 基于特征的状态空间 在神经网络中预测一个特征向量 7.5 图 图 一个图由一组节点(不一定是有限的)构成,节点对由弧连接,这些弧是从节点的一方指向另一方的有向弧,这样的图被称为有向图(d i rected graph)。 为方便讨论,节点由环境状态模型标识,弧由动作名标识。如果弧是从节点ni指向nj,那么nj就是ni的后继(或者叫孩子),ni是nj的双亲。一个(有限的)有向树是有向图的特殊情况。 在有向树中(除了一个节点),每个节点只有一个父亲。没有父节点的节点被称为根节点。在树中没有后继的节点称为末端节点或叶节点。 树和路径 在理论分析中,有一些树有这样的特征,即除了叶节点外,所有的节点都有相同数量b 个后继。在这种情况下,b被称为这个树的分枝因子。 一个节点序列(n1, n2, ..., nk),ni+ 1是ni的后继,i= 1 , 2 , . . . ,k-1被称为从节点n1到nk的长度为k的一条路径(另外,我们可以把连接节点的弧序列定义为一条路径)。如果存在从节点ni 到nj的路径,那么就说从ni可以访问nj。nj就是ni
文档评论(0)