- 1、本文档共62页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]半监督学习简介
半监督学习;前言
半监督聚类
半监督分类;机器学习的目的:h: Y = h(X)
(X, Y): 训练样本空间
Y
空集(未知)——无监督学习
全部已知 ——有监督学习
只给了一部分——半监督学习;有监督学习
从已标注数据中学习
无监督学习
从未标注数据中学习
半监督学习
从少量标注数据和大量未标注数据中学习;有监督——分类
训练集,带标注数据
训练过程:得一模型(分类器)
预测:用得到分类器对新样例分类
无监督——聚类
相似个体聚集为一类
最小化类内的距离
最大化类间的距离
;;;结合少量标注数据和大量未标注数据
半监督分类
在少量标注数据上训练
开拓大量未标注的数据
不断迭代,最终得到一个更为精确的分类器
利用未标注数据,目标是分类
半监督聚类
利用少量标注数据来帮助在未标注数据上的聚类
利用标注数据作为约束,目标是聚类;大规模的标注数据代价昂贵
常常需要人工标注
耗时
未标注数据很容易获得
领域
标注数据一般都是针对某个特定领域,换个领域就不适用了;输入
未标注对象集,每个对象由一个特征集来描述
输出
K 个聚类的划分
目标
最小化类内相似度,最大化类间相似度
高内聚,低耦合;半监督 K-Means
标签传播 LP;Seeded K-Means
用已标注数据初始化各个聚类的中心,以后的过程中,已标注数据的标签信息可以改变
Constrained K-Means
已标注数据初始化各个聚类的中心,以后的过程中,已标注数据的标签信息不得改变;1 随机选取 k 个样例,作为聚类的中心
2 对剩下的 n-k 个样例计算与 k 个中心的相似度,将其归于相似度最大的中心的那个聚类
3 重新计算各个聚类的中心
4 重复 2、3 步骤直至收敛;;;;;;;;;;;;;;;;Seeded 与 Constrained K-Means:部分标注数据
COP K-Means:约束(Must-link 和 Connot-link)
Constrained 和 COP K-Means 要求所有的约束都要满足
种子中如果包含了噪音,这种方法将不那么有效
Seeded K-Means 只是在第一步中使用种子得到各个聚类的中心
对种子中的噪音不敏感
实验结果表明半监督的 K-Means 优于传统的 K-Means;标签传播 Label Propagation
假设???相似度越高的样例越有可能属于同一类
建立一个图
结点:所有的样例(标注 + 未标注)
通过图中的边传递标签信息
不同的边有不同的权值,权值越大的边越容易传递标签信息;图中每个结点代表一个样例
计算这个样例之间的相似度 wij
图中两个样例有标签,其他都没有
怎样预测未标注结点的标签,
借助于图?;;;;;;;利用少量标注数据来标注大量未标注数据
相似的样例有相同的的类标签
;;;;Bootstrapping
Co-training
;最早的,也是最简单的
也称作:self-teaching 或 self-training
;;;在一些情况下所得到的数据特征是冗余的,我们可以在这些相对独立的特征集上训练得到两个或者更多的分类器
所得到的两个分类器接受对每个样例的分类
这样,我们可以利用未标注数据来约束两个分类器的训练过程;;;;;;;;;;;;;;;半监督 EM
Transductive SVM
;2010/10/28
文档评论(0)