网站大量收购独家精品文档,联系QQ:2885784924

AlphaGo原理简析.pptx

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
AlphaGo原理简析Alphago论文研读与相关背景知识介绍清华大学自动化系自46 司雯文带有 SmartArt 的标题和内容版式AlphaGo四大结构走棋网络快速走子估值网络蒙特卡洛树有哪些信誉好的足球投注网站AlphaGo评价AI中的围棋卷积神经网络蒙特卡洛树有哪些信誉好的足球投注网站背景知识系统整合背景知识由于每个点可能有黑、白、空三种可能,在19*19的棋盘上,棋局的可能形式不超过 ,考虑到存在大量不合规则的棋子分布,合理的棋局约占这个数字的1.2%( 2×10170 AI 中的围棋AlphaGo大战李世乭!围棋问题 围棋是NP-hard问题,棋局的可能形式不超过3^361 ,考虑到存在大量不合规则的棋子分布,合理的棋局约为 。如果用一个原子来存储围棋可能的状态,把全宇宙的原子加起来都不够储存所有的状态。 传统围棋 AI 早期:利用围棋知识、棋谱进行特征匹配 近期:蒙特卡洛树有哪些信誉好的足球投注网站由于每个点可能有黑、白、空三种可能,在19*19的棋盘上,棋局的可能形式不超过 ,考虑到存在大量不合规则的棋子分布,合理的棋局约占这个数字的1.2%( 卷积神经网络(CNN)神经网络卷积神经网络特点及应用神经元 输入的线性组合激活函数典型: sigmoid, tanh将线性组合由R-(0, 1)神经网络 多个神经元输入层、隐藏层、输出层单层神经元之间互不连接参数:权值 迭代过程前向传播 已知输入层已知权值(初始、上一次迭代结果)逐层计算直到输出层 向后传播 back-propagation 原理:由前向传播的输出矫正权值目标:最小化输出均方误差(整个training set之和)方法:逆向求导卷积神经网络(CNN)图像:维数过大局部连接卷积神经网络卷积卷积核—特征多卷积核深层卷积神经网络(DCNN)多隐藏层结构多样化特点及应用局部性重复性提取子问题应用:图像处理、人机对弈蒙特卡洛树有哪些信誉好的足球投注网站(MCTS)Monte carol tree search掀起围棋领域革命2006年,雷米·库洛姆(Remi Coulom)描述了蒙特卡洛方法在游戏树有哪些信誉好的足球投注网站的应用并命名为蒙特卡洛树有哪些信誉好的足球投注网站 Multi-armed bandit Problem.四个步骤selection expansion 四个步骤simulation update conspros初始策略太简单,低效。没有任何人工的feature,完全依靠规则本身,通过不断想象自对弈来提高能力。 MCTS可以连续运行,在对手思考对策的同时自己也可以思考对策。 AlphaGo四大结构走棋网络快速走子估值网络蒙特卡洛树有哪些信誉好的足球投注网站结构:深度卷积神经网络Width: 192 Accuracy: 57%SL, Non-searchTraining set: KGS Go server高手对局把当前局面作为输入,预测下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。目标:符合高手出棋 Pros: 棋感Cons: 无谓劫杀、对杀出错。(原因:没有价值判断功能)走棋网络(SL) policy network 左右互博,自我进化强化学习(RL)Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。 根据游戏结果迭代更新转移概率和评估函数。结构:深度卷积神经网络(与SL完全相同)训练方法:自我对局目标:校正价值导向将SL权值作为初始值,自我对弈更新权值,从而提升棋力Pros: 棋艺更高(win 80% of the games with SL policy network)Cons: 走法集中,不适应MCTS多有哪些信誉好的足球投注网站范围的需求走棋网络(RL) policy network 原因:1.走棋网络的运行速度较慢 (3ms) 快速走子在2us 2. 用来评估盘面。在同等时间下,模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。提升棋力。 结构:局部特征匹配 + 线性回归特征:围棋专业知识Accuracy: 24.2%Level :3 dan快速走子 fast-rollout 目标:预测当前局面取胜可能性结构:深度卷积神经网络Training set: RL走棋网络生成的自我对局 每一盘棋只取一个样本来训练以避免过拟合 评估当前局面下双方的胜败可能性。与快速走子对盘面估计互补 开局:和气,估值网络会比较重要 复杂局面:通过快速走子估计盘面完全没有做任何局部死活/对杀分析,brute-force估值网络 value network 基本使用传统方法将整个系统连接起来改进“随机掷骰子”:先考虑DCNN认为比较好的着法探索足够多次数后,选择更相信探索得来的胜率值 优点:灵活、避免漏着。Detail: 有哪些信誉好的足球投注网站到叶子节点时,没有立即展

文档评论(0)

2232文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档