网站大量收购闲置独家精品文档,联系QQ:2885784924

Co-training方法及应用.ppt

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Co-training方法及应用.ppt

Co-training方法及应用 IR-Lab 马金山 2005-5-24 什么是Co-training? Co-training方法bootstrapping思想的一种实现 主要用于二元分类问题 是一种半指导或无指导的学习方法 用一个小规模的标注数据及一个大规模的未标注数据训练分类器 最早提出此方法之一 D. Yarowsky. 1995. Unsupervised Word Sense Disambiguation Rivaling Supervised Methods 用于词义消歧问题 以plant为例说明 plant:植物 plant:工厂 方法说明 先找出确定的两个特征词 life: plant life manufacturing: manufacturing plant 将这些句子作为种子集 训练过程 使用决策表(decision list)的方法训练一个有指导的分类器,该分类器从种子集中识别出其他的特征搭配,并对这些搭配进行排序。 用得到的分类器对未标注数据(称为剩余集)进行标注,将概率超过阈值的句子加入到种子集中,使用决策列表算法,从增加的数据中又获得新的搭配。 用词义消歧中的one-sense-per-discourse特性对特征进行优化 获取新的特征 反复迭代 返回开始,训练集逐渐增加,剩余集逐渐减少。 当训练参数不变时,算法收敛于一个稳定的剩余集。 从最终的训练集中训练的分类器可用于分析新的数据。 Co-training的描述 从两个角度(views)看一个分类问题; 根据不同的角度分别建立一个模型,在标注集下训练每个模型; 标注未标注的句子,然后找出每个模型都以较高自信度标注的句子; 以不同的方式挑出这些高自信度的句子; 把这些句子加入到训练集中,迭代这个过程,直到未标注数据耗尽。 Anoop Sarkar. 2001. Applying co-training methods to statistical parsing 基于Co-training进行网页分类 Avrim Blum and Tom Mitchell. 1998. Combining labeled and unlabeled data with Co-Training 第一次使用co-training这个概念。 从两个视角进行网页分类 网页的内容特征 网页的超链接 根据每一个特征使用贝叶斯方法设计分类器 分类器设计 三个分类器 based classifier Hyperlink-based classifier Combined classifier。 第三个分类器是基于前两个分类器的输出 P(c|x) = P(c|x1)P(c|x2) x=(x1,x2)是网页的文本特征和超链特征。 训练过程 未标注数据集合U,标注数据集合L 从U中随机抽取u个样本放到小数据集U’中 (1)用L训练出分类器h1和h2 (2)对U’进行标注,从标注结果中选出最可信的p个正例和n个反例,加入到L中 (3)从U中随机抽取2p+2n个样本加入到U’中 以上过程迭代k次 Co-training的应用 应用于动词细分类 将动词v分成8个细类 无指导实验 基于最大熵的分类器C C1:以目标词的上下文为特征 C2:以目标词的前后动词为特征 实验结果 种子集200句 未标注集7800句 效果不好 结果分析 分类器的特征抽取不够合理 未掌握无指导迭代思想的精髓 thanks * 信息检索实验室 * 信息检索实验室 吃,学习 general verb vg 工作,诉讼 noun verb vn 如实,强制 adverb verb vd 掉, 不已 complement verb vb 去, 进 Tendency vq 加以 formal vf 要, 会 auxiliary verb vz 是, 为 copular vx Examples Description Tag ns vg u m q vn n POS tags ns v u m q v n POS tags 武汉 取消 了 49 个 收费 项目 segmentation 武汉取消了49个收费项目 Chinese sentence 0.744024 0.744024 0.744242 Co-training 0.773359 0.787918 0.822034 初始值 组合分类器 位置分类器 上下文分类器 * * * 信息检索实验室

文档评论(0)

czy2014 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档