- 1、本文档共66页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5.6 类比学习 5.6.1 类比推理和类比学习方式 类比学习(learning by analogy)就是通过类比,即通过对相似事物加以比较所进行的一种学习 。 其推理过程如下 : 回忆与联想--- 选择 --- 建立对应关系---转换 5.6.2 类比学习过程与研究类型 类比学习主要包括如下四个过程: 输入一组已知条件和一组未完全确定的条件 。 对两组出入条件寻找其可类比的对应关系。 根据相似转换的方法,进行映射。 对类推得到的知识进行校验。 类比学习的研究可分为两大类: (1) 问题求解型的类比学习 (2) 预测推定型的类比学习。它又分为两种方式: 一是传统的类比法 另一是因果关系型的类比 连接主义学习 非监督学习 监督学习 强化学习 智能系统从环境到行为映射的学习 目标:奖励信号(强化信号)值最大 强化信号是对产生动作的好坏做出的一种评价,而不是告诉强化学习系统如何去产生正确的动作 强化学习 Reinforcement Learning 举例 A master chess player makes a move. The choice is informed both by planning—anticipating possible replies and counterreplies--and by immediate, intuitive judgments of the desirability of particular positions and moves. An adaptive controller adjusts parameters of a petroleum refinerys operation in real time. The controller optimizes the yield/cost/quality trade-off on the basis of specified marginal costs without sticking strictly to the set points originally suggested by engineers. A gazelle calf struggles to its feet minutes after being born. Half an hour later it is running at 20 miles per hour. A mobile robot decides whether it should enter a new room in search of more trash to collect or start trying to find its way back to its battery recharging station. It makes its decision based on how quickly and easily it has been able to find the recharger in the past. 决策系统与环境的互动,尽管环境存在不确定性,决策系统仍试图寻找到目标 决策系统的行为可以影响环境未来的状态(下一步棋的位置、精炼厂储液槽的高度、机器人的下一个位置等),从而影响决策系统之后能够采取的行动方案 为获得正确的决策,需要考虑行为所引起的间接的、滞后的结果,所以决策需要具有预见性 由于不能完全预测行为产生的结果,因此决策系统频繁地对环境进行监测,并作出相应的反应 决策系统明确知道目标是什么,并能够判断当前状态距离目标还有多远。例如,棋手知道自己的输赢状况,精炼控制器知道已经精炼了多少汽油,机器人知道什么时候电池就用完了,等等 决策系统可以利用经验改进其表现 决策系统已具备的知识—从过去类似经验中获得的或在设计时就封装好的—影响了学习的困难程度 决策系统与环境的互动是非常重要的,帮助系统调整行为,从而发掘任务的特性 The T-maze problem Policy Reward function Value function Model of the environment Elements of Reinforcement Learning A policy defines the learning agents way of behaving at a given time It determines which action should be performed in each state A reward function defines the goal in
文档评论(0)