时序差分学习算法介绍.PPT

下载文档 降价啦

11
0
约3.13千字
约 28页
2019-03-02 发布于天津
举报
版权申诉
保障服务

时序差分学习算法介绍.PPT

1、本文档共28页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

时序差分学习算法介绍

时序差分学习在非完备信息机器博弈中的应用王轩许朝阳哈尔滨工业大学深圳研究生院智能计算中心 2007.10.3 主要内容非完备信息博弈简介 1 2 时序差分在四国军旗中的应用 3 时序差分学习算法介绍非完备信息博弈完备信息博弈（Perfect Information Game ）: 中国象棋；围棋； … 非完备信息博弈（Imperfect Information Game ）: 四国军棋；牌类游戏：红心大战，拱猪…. …. 非完备信息博弈树菱形表示随机节点四国军旗游戏蒙特卡罗抽样根据前面的走步来更新棋子的概率表；根据更新后的棋子概率表，为棋盘上的每个棋子随机选择棋子的种类，得到一个完备信息棋局；对该完备信息棋局进行MaxMin博弈树有哪些信誉好的足球投注网站，找到一个最佳走步；多次重复上述过程，选择选中次数最多的走步作为最终的最佳走步；概率表的建立根据112个经典布局来设定各个棋子的概率表；根据走步结果来修改棋子的概率表；为棋盘上的每个棋子都建立各自的概率表；主要内容非完备信息博弈简介 1 2 时序差分在四国军旗中的应用 3 时序差分学习算法介绍时序差分学习最早由Sutton提出；他证明时序差分学习可以和有监督学习获得同样的结果而且占用更少的内存，收敛更快； TD最成功的应用是Tesauro 根据时序差分编制的西洋双陆棋程序TDGammon，棋力可以和最好的人类棋手相媲美； TD Gammon 时序差分学习场景时序差分学习基本概念智能体（Agent）从外部环境（Environment）中读取输入（State），根据State来选择采取哪个行动（Action）；外部环境根据action的结果提供给智能体一个回报值（reward）；在一个阶段结束之后，智能体根据回报值，采用某个学习算法（例如时序差分学习算法）来调整自己的行为；时序差分调整算法基本概念步数 t = 1，2，3，……表示到了第几步； St 表示第t步时的棋盘状态； w是描述棋局状态的一个向量，里面是描述棋局的各种参数（如各种棋子的基本值等）； rst表示在状态St时采取某个走步所获得的回报值；在游戏结束时的回报值rsn是确定的，比如1表示赢了，－1表示输了，0表示和局；定义估值函数J（ St ，w）来模拟逼近第t步时采取某个走步时的回报值rst；假设从游戏开始到结束经历了n步，则估值函数序列为： J（ S1 ，w ）, J（ S2 ，w ） ….J（ Sn-1 ，w ）, rsn ; 时序差分调整算法期望找到一个最佳向量w，使得估值函数 J（S ，w）在棋局状态S下能够和真实回报值J*（ S, w ）之间的error最小：定义在第t步的时序差分dt如下：最后的dN-1是实际的最终结果rsn和第n-1步预测之间的差值。在一轮游戏结束时，TD (λ)利用下面的公式来更新和调整参数向量w: 时序差分公式其中是估值函数 J在状态St时关于参数向量w的偏导数， α是一个0到1之间的一个正常数，控制了学习的速率； λ也是一个0到1之间的正常数，控制着时序差分更新时向前传播的百分比；主要内容非完备信息博弈简介 1 2 时序差分在四国军旗中的应用 3 时序差分学习算法介绍系统运行界面系统基本架构四国军旗系统特点有哪些信誉好的足球投注网站空间巨大；非完备信息博弈，这里采用了蒙特卡罗抽样技术来解决；有哪些信誉好的足球投注网站算法根据军棋游戏的特点，使用了历史启发有哪些信誉好的足球投注网站算法，History Heuristics；估值函数采用时序差分学习技术进行优化估值函数的优化-时序差分估值函数是博弈程序的核心；原来的估值函数结构简单，难以有效的描述棋局；时序差分定义了一系列的描述棋盘的参数，并通过不断调整这些参数来逼近棋局的真实状况；四国军旗系统场景设计 Agent是人工智能玩家； Environment外部环境是所有可能的棋局构成的集合； State是当前棋局； Action集合是在当前棋局下所有合法的走步；回报值r在游戏结束时，有3个可能的值：1，－1，0。1表示赢了，－1表示输了，0表示和局；游戏中间使用估值函数J来模拟逼近回报值r；四国军旗中的时序差分在一局游戏结束时根据时序差分学习算法进行调整；希望对从游戏开