机器学习研究(珏).ppt

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习研究(珏)

机器学习研究 王 珏 中国科学院自动化研究所 2003年3月,北京,自动化所 反思 网络经济的泡沫破灭之后,哪些是值得我们在研究方向上反思的问题呢? 我们的研究应注意哪些课题呢? 需求---NII计划 不分地域地、有效地获得与传输信息。 不分地域地、有效地共享硬软资源。 有效地利用信息,以提高生产率。 保证信息安全。 在过去的十年中,做了什么? 以浏览器为核心技术的“有效获得信息”的研究取得了预期效果。 人们已可以从不同地域有效地获得信息。 但是,,, 硬软资源的使用 在网络上的硬软资源的利用率只有3-5%。 大量计算资源没有由于网络设施的支持而被充分利用。 硬软件的快速更新,导致对环境的污染。 信息的有效使用 由于技术发展的滞后,在网络上获得的信息和与提高生产率有关的信息的有效使用率甚至低于1%。 占用大量硬软资源的信息正在大量地被浪费。 信息安全 信息的安全还没有保证。 提高信息使用率 以机器学习为理论基础的各种方法,是提高信息使用率的有效途径之一。 机器学习 复杂数据分析(符号机器学习) 机器学习 机器学习的一般说明 统计机器学习 集成机器学习 机器学习的研究动力 领域应用驱动。 算法驱动。 领域应用驱动 自然语言数据分析。 DNA数据分析。 网络与电信数据分析。 图像数据分析。 金融与经济数据分析。 零售业数据分析。 情报分析。 没有一种算法可以解决复杂的实际问题。需要各种算法集成。 算法驱动 海量数据(108-10)。 算法的泛化能力,或算法可解释。 不同类型数据的学习方法。 机器学习研究热点的变迁 1989年(Carbonell), 1997年(Dietterich) 符号机器学习。 符号机器学习。 连接机器学习。 集成机器学习。 遗传机器学习。 统计机器学习。 分析机器学习。 增强机器学习。 机器学习计算的说明 令W是这个给定世界的有限或无限所有对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集Q?W。 机器学习的任务就是根据这个世界的对象子集Q,计算这个世界的统计分布。这样,在统计意义下,这个分布对这个世界的绝大多数对象是正确的。这就是这个世界的一个模型。 三个要求 一致性假设:机器学习任务的本质。 对样本空间的划分:决定对样本的有效性。 泛化能力:决定对世界的有效性。 一致性假设 假设世界W与被观察的对象集合Q具有某种相同的性质。 称为一致性假设。 基于统计的假设 原则上说,存在各种各样的一致性假设。 在统计意义下,一般假设: W与Q具有同分布。或, 给定世界W的所有对象独立同分布。 划分 将被观测的对象集合放到一个n维欧氏空间,寻找一个超平面,使得问题决定的不同对象分在不相交的区域。 机器学习主要研究的是这部分内容,即,寻找划分对象集合的超平面(等价关系)。 超平面类型 光滑且连续的超平面。 有限不光滑点,甚至有限不连续点的超平面。 光滑连续超平面作为研究基础 Perceptron,人工神经网络是典型例子。 困难: 对线性不可分的对象集合,如果限制算法是P的,则存在本质性困难。 泛化 机器学习的首要任务是划分。只有找到一个等价关系(模型),将不同类的样本划分为不同的类,才能考虑其他问题。 泛化是一个确定的划分对世界的分类能力。 由于可能存在不同的划分样本集合方法,其泛化能力不同,泛化能力最强的划分就是我们希望的分类器。 Duda的泛化能力描述 以样本个数趋近无穷大来描述模型的泛化能力。 泛化能力需要使用世界W来刻画,是无法构造的判据。 均方差可作为目标函数。 评述 由于人们没有找到基于样本集合Q的描述泛化能力的数学工具。另外,线性不可分问题是一个困难。 在感知机时代,基于Duda泛化理论无法指导机器学习算法的设计,这样,评价机器学习算法只能以划分能力作为指标。 Vapnik对这个问题做出重要贡献。 这样,注重从划分变为泛化。 以划分能力为目标的研究 这类研究的指导思想,一直延续到上个世纪的九十年代。 直到今天,还有大量的学者以此作为机器学习的指导思想。以BP算法为核心的神经网络研究是典型例子。 划分是机器学习的一个目标,但是,不是预测任务的主要研究目标。 神经网络---BP算法 使用了一种非线性的基函数。 这项研究的意义是为研究者回归感知机做好了舆论的准备。 其在科学上的意义,远不如提示人们再次注意感知机的作用更大。 统计机器学习理论与SVM 对机器学习的研究者来说,统计机器学习理论所派生的算法SVM似乎更有吸引力。 但是,如果研究者忘记SVM所基于的统计基础,就与Vapnik的本意相悖了。 事实上,Vapnik的统计理论才是其精华,而基于这个理论的算法只是从这个统计理论派生的自然结果。 机器学习的

文档评论(0)

quechui388620 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档