- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
支持向量机算法和软件ChemSVM介绍
陆文聪1(,陈念贻1 ,叶晨洲2,李国正2
(1. 上海大学化学系计算机化学研究室,上海,200436)
(2. 上海交通大学图象及模式识别研究所,上海,200030)
摘要 Vladimir N. Vapnik等提出的统计学习理论(statistical learning theory,简称SLT)和支持向量机(support vector machine,简称SVM)算法已取得令人鼓舞的研究成果。本文旨在对这一新理论和新算法的原理作一介绍,并展望这一计算机学界的新成果在化学化工领域的应用前景。“ChemSVM”软件提供了通用的支持向量机算法,并将其与数据库、知识库、原子参数及其它数据挖掘方法有机地集成起来。
关键词 模式识别;支持向量机;支持向量分类;支持向量回归
中图分类号:O 06-04
Introduction to the Algorithm of Support Vector Machine and the Software ChemSVM
LU Wen-cong1, CHEN Nian-yi1, YE Chen-zhou2, LI Guo-zheng2
(1. Laboratory of Chemical Data Mining, Department of Chemistry, Shanghai University, Shanghai, 200436, China)
(2. Institute of Image and Pattern Recognition, Jiaotong University, Shanghai, 200030, China)
Abstracts: The great achievements have been approached in the development of statistical learning theory (STL) and support vector machine (SVM) as well as kernel techniques. This paper aimed at introducing the principle of SLT and SVM algorithm and prospecting their applications in the fields of chemistry and chemical industry..
Key Words: Statistical learning theory, Support vector machine, Support vector classification, Support vector regression
众所周知,统计模式识别、线性或非线性回归以及人工神经网络等方法是数据挖掘的有效工具,已随着计算机硬件和软件技术的发展得到了广泛的应用[1-4],我们亦曾将若干数据挖掘方法用于材料设计和药物构效关系的研究[5-12]。
但多年来我们也受制于一个难题:传统的模式识别或人工神经网络方法都要求有较多的训练样本,而许多实际课题中已知样本较少。对于小样本集,训练结果最好的模型不一定是预报能力最好的模型。因此,如何从小样本集出发,得到预报(推广)能力较好的模型,遂成为模式识别研究领域内的一个难点,即所谓“小样本难题”。最近我们注意到:数学家通过4]、文字识别[15]、药物设计[16]、组合化学[17]、时间序列预测[18]等研究领域得到成功应用,该新方法从严格的数学理论出发,论证和实现了在小样本情况下能最大限度地提高预报可靠性的方法,其研究成果令人鼓舞。张学工、杨杰等率先将有关研究成果引入国内计算机学界,并开展了SVM算法及其应用研究[19],但国内化学化工领域内尚未见SVM的应用报道。
本文是本论文系列的第一篇,主要介绍Vapnik等在SLT基础上提出的SVM算法,包括支持向量分类(support vector classification,简称SVC)算法和支持向量回归(support vector regression,简称SVR)算法,并展望这一计算机学界的新成果在化学化工领域的应用前景。
统计学习理论(SLT)简介[13]
1.1 背景
现实世界中存在大量我们尚无法准确认识但却可以进行观测的事物,如何从一些观测数据(样本)出发得出目前尚不能通过原理分析得到的规律,进而利用这些规律预测未来的数据,这是统计模式识别(基于数据的机器学习的特例)需要解决的问题。统计是我们面对数据而又缺乏理论模型时最基本的(也是唯一的)分析手段。Vapnik 等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题,但这些研究长期没有得到充分的重视。近十
文档评论(0)