半监督学习中的协同训练风范.pdf

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
半监督学习中的协同训练风范* 周 志 华 南京大学计算机软件新技术国家重点实验室,南京210093 1. 引言 在传统的监督学习中,学习器通过对大量有标记的(labeled )训练例进行学习,从而建立模型 用于预测见示例的标记。这里的“标记”(label )是指示例所对应的输出,在分类问题中标记就是 示例的类别,而在回归问题中标记就是示例所对应的实值输出。随着数据收集和存储技术的飞速发 展,收集大量标记的(unlabeled )示例已相当容易,而获取大量有标记的示例则相对较为困难, 因为获得这些标记可能需要耗费大量的人力物力。例如在计算机辅助医学图像分析中,可以从医院 获得大量的医学图像作为训练例,但如果要求医学专家把这些图像中的病灶都标识出来,则往往是 不现实的。事实上,在真实世界问题中通常存在大量的标记示例,但有标记示例则比较少,尤其 是在一些在线应用中这一问题更加突出。例如,在进行Web 网页推荐时,需要用户标记出哪些网页 是他感兴趣的,很少会有用户愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但Web 上存在着无数的网页,它们都可作为标记示例来使用。 显然,如果只使用少量的有标记示例,那么利用它们所训练出的学习系统往往很难具有强泛化 能力;另一方面,如果仅使用少量“昂贵的”有标记示例而不利用大量“廉价的”标记示例,则 是对数据资源的极大的浪费。因此,在有标记示例较少时,如何利用大量的标记示例来改善学习 性能已成为当前机器学习研究中最受关注的问题之一。 目前,利用标记示例的主流学习技术主要有三大类[Zhou06],即半监督学习(semi-supervised learning )、直推学习(transductive learning )和主动学习(active learning )。这三类技术都是试图利用 大量的标记示例来辅助对少量有标记示例的学习,但它们的基思想却有显著的不同。在半监督 学习[ChapelleSZ06][Zhu06]中,学习器试图自行利用标记示例,即整个学习过程不需人工干预,仅 基于学习器自身对标记示例进行利用。直推学习[Vapnik98][Joachims99]与半监督学习的相似之处 是它也是由学习器自行利用标记示例,但不同的是,直推学习假定标记示例就是测试例,即学 习的目的就是在这些标记示例上取得最佳泛化能力。换句话说,半监督学习考虑的是一个“开放 世界”,即在进行学习时并不知道要预测的示例是什么,而直推学习考虑的则是一个“封闭世界”, 在学习时已经知道了需要预测哪些示例。实际上,直推学习这一思路直接来源于统计学习理论 * 文得到国家自然科学基金和全国优秀博士学位论文作者专项基金(200343)资助 1 1 [Vapnik98],并被一些学者认为是统计学习理论对机器学习思想的最重要的贡献 。其出发点是不要 通过解一个困难的问题来解决一个相对简单的问题。V. Vapnik认为,经典的归纳学习假设期望学得 一个在整个示例分布上具有低错误率的决策函数,这实际上把问题复杂化了,因为在很多情况下, 人们并不关心决策函数在整个示例分布上性能怎么样,而只是期望在给定的要预测的示例上达到最 好的性能。后者比前者简单,因此,在学习过程中可以显式地考虑测试例从而更容易地达到目的。 这一思想在机器学习界目前仍有争议,但直推学习作为一种重要的利用标记示例的技术,则已经 受到了众多学者的关注。主动学习[SeungOS92][LewisG94][AbeM98]和前面两类技术不同,它假设学 习器对环境有一定的控制能力,可以“主动地”向学习器之外的某个“神谕”(oracle)2 进行查询来 获得训练例的标记。因此,在主动学习中,学习器自行挑选出一些标记示例并通过神谕查询获得 这些示例的标记,然后再将这些有标记示例作为训练例来进行常规的监督学习,而其技术难点则在 于如何使用尽可能少的查询来获得强泛化能力。对比半监督学习、直推学习和主动学习可以看出, 后者在利用标记示例的过程中需要与外界进行交互,

文档评论(0)

annylsq + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档