1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SVM(一)

* SVM(Support Vector Machine) 支持向量机 一种可训练的机器学习方法 所谓支持向量机,分为两个部分了解: 一,什么是支持向量(简单来说,就是支持或支撑平面上把两类类别划分开来的超平面的向量点,下文将具体解释); 二,这里的“机(machine,机器)”便是一个算法。在机器学习领域,常把一些算法看做是一个机器,如分类机(当然,也叫做分类器),而支持向量机本身便是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。 传统的机器学习基本上属于摸着石头过河,用传统的机器学习方法构造分类系统完全成了一种技巧,一个人做的结果可能很好,另一个人差不多的方法做出来却很差,缺乏指导和原则。机器学习本质上就是一种对问题真实模型的逼近(我们选择一个我们认为比较好的近似模型,这个近似模型就叫做一个假设),但毫无疑问,真实模型一定是不知道的。既然真实模型不知道,那么我们选择的假设与问题真实解之间究竟有多大差距,我们就没法得知。这个与问题真实解之间的误差,就叫做风险。 真实风险应该由两部分组成 一是经验风险,代表了分类器在给定样本上的误差; 二是置信风险,代表了我们在多大程度上可以信任分类器在未知文本上分类的结果。 置信风险是没有办法精确计算的,因此只能给出一个估计的区间,也使得整个误差只能计算上界,而无法计算准确的值(所以叫做泛化误差界,而不叫泛化误差)。 置信风险与两个量有关: 一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小; 二是分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。 小样本,并不是说样本的绝对数量少(实际上,对任何算法来说,更多的样本几乎总是能带来更好的效果),而是说与问题的复杂度比起来,SVM算法要求的样本数是相对比较少的。 非线性,是指SVM擅长应付样本数据线性不可分的情况,主要通过松弛变量(也有人叫惩罚变量)和核函数技术来实现。 高维模式识别是指样本维数很高,例如文本的向量表示,如果没有经过另一系列文章(《文本分类入门》)中提到过的降维处理,出现几万维的情况很正常,其他算法基本就没有能力应付了,SVM却可以,主要是因为SVM 产生的分类器很简洁,用到的样本信息很少,使得即使样本维数很高,也不会给存储和计算带来大麻烦。 SVM优点: SVM的主要思想可以概括为两点: ⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能; ⑵它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。 线性函数 在一维空间里就是一个点,在二维空间里就是一条直线,三维空间里就是一个平面,可以如此想象下去,如果不关注空间的维数,这种线性函数还有一个统一的名称——超平面(Hyper Plane) g(x)=wx+b 对于非线性回归,首先使用一非线性映射把数据映射到一个高维特征空间,再在高维特征空间进行线性回归,从而取得在原空间非线性回归的结果。所以采用适当的内积函数K(xi,xj)就可以实现某一非线性变换后的线性回归。 SVM一般步骤:(A Practical Guide to Support Vector Classification) 将数据转换为规范格式的SVM包 对样本数据进行缩放 考虑径向基函数 利用交叉验证找到最好的参数C和γ 用选好的C和γ训练整个集合 测试 注意事项: 规范数据时,用M个数字代表M各属性,其中只有一个属性为1,其余全为零。 例:{红,绿,蓝},可以用(0,0,1),(0,1,0),(1,0,0) 在同一个属性值缩放时,必须使用同一个标准,考虑到所用值,以免出现越界情况。 线性函数是径向基核函数的一个特例,一般将径向基核函数作为首选训练参数的核函数。 *

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档