人工智能基础 第六章 模式识别与机器学习.ppt

人工智能基础 第六章 模式识别与机器学习.ppt

  1. 1、本文档共126页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * 本章小结 本章学习了模式识别及机器学习的部分经典算法的基本概念和理论推导,此外给出了部分算法步骤和流程,方便读者进行代码编写和实现。 思考题与习题 6-1简述模式识别与机器学习研究地共同问题和各自地研究侧重点。 6-2有监督学习和无监督学习的区别。 6-3线性分类器与非线性分类器的区别以及优劣。 6-4最小损失贝叶斯决策与最小风险贝叶斯决策的主要区别。 6-5描述SVM算法的基本原理及流程。 6-6 K-means算法的基本原理和关键参数。 6-7简述PCA降维算法的流程。 6-8简述卷积神经网络的基本结构。 6-9欠拟合和过拟合的原因分别有哪些?如何避免? 6-10若要对以下图案进行聚类分析需要采用哪种聚类方法,简述理由和该方法步骤。 6-11给出逻辑回归的模型、原理。 6-12怎么理解损失函数,贝叶斯的损失函数是什么。 6-13神经网络中激活函数的作用。 本章结束 * * * * * * * * * * * * * * * * * * * * * * * * * * * * 6.5.2 点到超平面的距离公式 既然这样的直线是存在的,那么我们怎样寻找出这样的直线呢?与二维空间类似,超平面的方程也可以写成一下形式: 有了超平面的表达式之后,我们就可以计算样本点到平面的距离了。假设样本点 其中xi表示为第i个特征变量。那么该点到超平面的距离d就可以用如下公式进行计算: 其中||W||为超平面的范数,常数b类似于直线方程中的截距。 6.5.3 最大间隔的优化模型 现在我们已经知道了如何去求数据点到超平面的距离,在超平面确定的情况下,我们就能够找出所有支持向量,然后计算出间隔margin。每一个超平面都对应着一个margin,我们的目标就是找出所有margin中最大的那个值对应的超平面。因此用数学语言描述就是确定w、b使得margin最大。这是一个优化问题其目标函数可以写成: 其中y表示数据点的标签,且其为-1或1。距离用计算y(wx+b),这是就能体会出-1和1的好处了。如果数据点在平面的正方向(即+1类)那么y(wx+b)是一个正数,而当数据点在平面的负方向时(即-1类),y(wx+b)依然是一个正数,这样就能够保证始终大于零了。注意到当w和b等比例放大时,d的结果是不会改变的。因此我们可以令所有支持向量的u为1,而其他点的u大1这是可以办通过调节w和b求到的。则对于离最优超平面最近的特殊样本Xs满足:Ig(Xs) I=1,称为支持向量。由于支持向量最靠近分类决策面,是最难分类的数据点,因此这些向量在支持向量机的运行中起着主导作用。 6.5.3 最大间隔的优化模型 因此上面的问题可以简化为: 为了后面计算的方便,我们将目标函数等价替换为: 分离边缘最大化等价于使权值向量的范数|| W||最小化。因此,满足式的条件且使||W||最小的分类超平面就是最优超平面。 该约束优化问题的代价函数是W的凸函数,且关于W的约束条件是线性的,因此可用Lagrange系数方法解决约束最优问题。应用拉格朗日乘子法如下: 式中 ≥0,称为Lagrange系数。式中的第一项为代价函数,第二项非负,因此最小化代价函数就转化为求Lagrange函数的最小值。 6.5.3 最大间隔的优化模型 求L对W和b偏导,并使结果为零。 带入计算得: 原问题的对偶问题为: 该对偶问题的KKT条件为: 到此,似乎问题就能够完美地解决了。但是这里有个假设:数据必须是百分之百可分的。但是实际中的数据几乎都不那么“干净”,或多或少都会存在一些噪点。为此下面我们将引入了松弛变量来解决这种问题。 6.5.4 松弛变量 由上一节的分析我们知道实际中很多样本数据都不能够用一个超平面把数据完全分开。如果数据集中存在噪点的话,那么在求超平的时候就会出现很大问题。从图三中可看出其中一个蓝点偏差太大,如果把它作为支持向量的话所求出来的margin就会比不算入它时要小得多。更糟糕的情况是如果这个蓝点落在了红点之间那么就找不出超平面了。 6.5.4 松弛变量 因此,若将上述思想用于非线性可分模式的分类时,会有一些样本不能满足dp(WT XP+b)≥1的约束,而出现分类误差。因此需要适当放宽该式的约束,引入一个松弛变量ξ来允许一些数据可以处于分隔面错误的一侧。这时新的约束条件变为: 式中引入了松弛变量ξi≥0,用于度量一个数据点对线性可分理想条件的偏离程度。当0≤ ξi ≤1时,数据点落入分离区域的内部,且在分类超平面的正确一侧;当ξi 1时,数据点进入分类超平面的错误一侧;当ξp =0时,相

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档