网站大量收购闲置独家精品文档,联系QQ:2885784924

人工智能ArtificialIntelligence第五章.ppt

  1. 1、本文档共110页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

*史忠植人工智能:机器学习*特征空间与核函数Mercer定理:要保证L2(C)下的对称函数 能以正的系数展开成(即描述了在某个特征空间中的一个积),其中紧集,充分必要条件是,对使得的所有,条件成立。*史忠植人工智能:机器学习*特征空间与核函数Mercer核多项式核高斯径向基函数核Sigmoid核(只在部分参数值情况下才满足核函数的定义)*史忠植人工智能:机器学习*提升方法Boosting弱学习机(weaklearner):对一定分布的训练样本给出假设(仅仅强于随机猜测)根据有云猜测可能会下雨强学习机(stronglearner):根据得到的弱学习机和相应的权重给出假设(最大程度上符合实际情况:almostperfectexpert)根据CNN,ABC,CBS以往的预测表现及实际天气情况作出综合准确的天气预测弱学习机强学习机*史忠植人工智能:机器学习*提升方法添加标题Setofweightedinstances添加标题ClassifierCt添加标题trainclassifier010302过程:在一定的权重条件下训练数据,得出分类法Ct根据Ct的错误率调整权重adjustweights*史忠植人工智能:机器学习*提升流程(loop1)强学习机弱学习机原始训练集加权后的训练集加权后的假设X1?1:-1弱假设*史忠植人工智能:机器学习*提升流程(loop2)强学习机弱学习机原始训练集加权后的训练集加权后的假设Y3?1:-1弱假设*史忠植人工智能:机器学习*提升流程(loop3)强学习机弱学习机原始训练集加权后的训练集加权后的假设Z7?1:-1弱假设*史忠植人工智能:机器学习*内容提要机器学习概述 归纳学习 类比学习 统计学习 群体智能 强化学习 进化计算 知识发现 小结 *史忠植人工智能:机器学习*强化学习添加标题强化学习一般比较困难,主要是因为学习系统并不知道哪个动作是正确的,也不知道哪个奖惩赋予哪个动作。添加标题强化学习由于其方法的通用性,对学习背景知识要求较少,以及适用于复杂、动态的环境等特点,在近年,引起了许多研究者的注意,成为机器学习的主要的方式之一。添加标题在强化学习中,学习系统根据从环境中反馈的信号的状态(奖励/惩罚),调整系统的参数。添加标题人类(通常)从与外界环境的交互中学习。但是,动作的反馈并不总是立即的和直接的。例如,经常需要比较长时间才能充分知道我们的动作所得出的结果。*史忠植人工智能:机器学习*强化学习强化学习由四部分组成:策略π,报酬函数r,值映射V和环境的模型。策略π:定义在任何给定时刻学习系统的选择和动作的方法。这样,策略可以通过一组产生式规则或者一个简单的查找表来表示。赋值函数V:是环境中每个状态的一个属性,它指出对从这个状态继续下去的动作系统可以期望的报酬。报酬函数度量状态-响应对的立即的期望值,而赋值函数指出环境中一个状态的长期的期望值。报酬函数r:定义了在时刻t问题的状态/目标关系。它把每个动作,或更精细的每个状态-响应对,映射为一个报酬量,以指出那个状态完成目标的愿望的大小。模型:是抓住环境行为的方面的一个机制。模型让我们在没有实际试验它们的情况下估计未来可能的动作。*史忠植人工智能:机器学习*主体强化学习模型i:input输入r:reward奖励s:state状态a:action动作状态sisi+1ri+1奖励ri环境动作aia0a1a2s0s1s2s3*史忠植人工智能:机器学习*学习自动机在强化学习方法中,学习自动机是最普通的方法。这种系统的学习机制包括两个模块:学习自动机和环境。学习过程是根据环境产生的刺激开始的。自动机根据所接收到的刺激,对环境做出反应,环境接收到该反应对其做出评估,并向自动机提供新的刺激。学习系统根据自动机上次的反应和当前的输入自动地调整其参数。*史忠植人工智能:机器学习*自适应动态程序设计在自适应动态程序设计中,状态i的效用值U(i)可以用下式计算:

文档评论(0)

135****7720 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档