- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
mathorcup竞赛优秀论文基于montecarlo局面评估和uct博弈树有哪些信誉好的足球投注网站的2048.doc
评委一评分,签名及备注
队号:
10302 评委三评分,签名及备注
评委二评分,签名及备注
选题:
A:2048 评委四评分,签名及备注
题目:基于Monte Carlo局面评估和UCT博弈树有哪些信誉好的足球投注网站的2048 摘要
本文首先提出Random-Max-Trees算法来实现的2048。此算法是但是在实现的过程中出现冗余的现象,-Trees算法效率降低。随后-Trees一样,效率非常低,也失去Alpha-Beta的优势,也无法试图通过面的有哪些信誉好的足球投注网站来弥补策略上的不足。
本文采用蒙特卡洛评估对以上模型进行了改进。它通过对当前局面下的每个的可选点进行大量的模拟来得出相应的胜负的统计特性,在简单情况下,胜率较高的点就可以认为是较好的点予以选择。由于UCT算法能不断根据之前的结果调整策略,选择优先评估哪一个可下点。所以在蒙特卡洛德基础上运用UCT算法提高收敛速度。可求得概率为100%。
对于第二问,采用归纳法以及概率论量化数值,当方格为时,最大能达到,如果将方格扩展到个,能达到的最大数为。最后对模型进行评价。
以及MATLAB实现。
关键字:Random-Max-Trees;Alpha-beta Carlo;
基于Monte Carlo局面评估和UCT博弈树有哪些信誉好的足球投注网站最近一款非常火爆的益智游戏,很多网友自称“一旦玩上它就根本停不下来”。2048游戏的规则很简单:每次控制所有方块向同一个方向运动,两个相同数字的方块撞在一起之后合并成为他们的和,每次操作之后会在空白的方格处随机生成一个2或者4,最终得到一个“2048”的方块就算胜利了。如果16个格子全部填满并且相邻的格子都不相同也就是无法移动的话,那么游戏就会结束。
建立数学模型,解答下列问题:
1. 如何才能达到2048,给出一个通用的模型,并采用完成游戏所需移动次数和成功概率两个指标来验证模型的有效性;
2. 得到2048之后,游戏还可以继续玩,那么最大能达到多大的数值呢?如果将方格扩展到N*N个,能达到的最大数是多少?
Random-Max-Trees和算法来实现AI)的2048。本文认为可以把2048游戏看成是一场博弈,”的方块。但是在AI的环境下-Trees博弈策略比选用Mini-Max-Tree的更加适当-Trees算法,则此算法的效率很不理想,会造成许多不必要的步骤。因为每一个子节后面还有子节,可能的情况很多循环往复,直到2048为止,但是并不是所有的节点都必须有哪些信誉好的足球投注网站完毕,有些节点是不必要的。为了解决这一问题,本文可以采用算法。
模型的假设
Alpha-Beta有比Minimax有哪些信誉好的足球投注网站算法更加准确的评估函数才能保证那些优秀的节点不被过早的剪枝;
博弈树较小而可以被完全展开,博弈树叶子节点的价值可以通过胜负关系来确定,有哪些信誉好的足球投注网站的结果就是最优解;
博弈树很大而不能被完全展开时,博弈树叶子节点的价值可以通过静态评估函数计算出来,当静态评估函数较为准确时,就可以得到相应的近似最优解;
符号说明
D:2048中块数的最大数值
N:无数字块数
I(x): minimax的最小值
Fi(x):定义在上的实值函数
:第台机器到目前为止的平均收益
:第台机器被测试的次数
:所有机器目前被测试的总次数
型建立与求解
问题一
5.1.1 Random-Max-Trees算法
Random-Max-Trees是从Minimax算法改变而来。只是加了一个条件,双方都是非理性的条件下,本质还是Minimax。
Minimax的定义
(1.1)
是定义在上的实值函数。它等价于非线性优化问题
(1.2)
(1.3)
可用求解约束问题的算法求解问题(1.2)-(1.3),从而得到Minimax问题的解。
假设在博弈过程中,对方总是选择使得博弈值最小的移动,我方则会选择博弈值最大的移动,对方称为Min,则我方称为Max,且都是非理性的。由于博弈双方是交替移动的,所以博弈树的结点及其父结点分属于我方与对方其中的一个,其种类分属Max和Min。博弈树上的每个结点对应于一个深度,叶结点的深度为0。因此,在任意的结点node,对博弈双方均最优的博弈值为
由此,很自然地得出Random-Max-Trees算法,用来求出满足一些条件的二人零和博弈问题的博弈值。
Alpha-beta剪枝算法
Alpha-beta算法是对Minimax算法的优化,运行效率比Minimax更高,自然也比Random-Max-Trees快。Random-Max-Trees算法在检查整个博弈树,效率非常低的,当步数越来越多的时候,每次
文档评论(0)