- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Co-training方法及应用.ppt
Co-training方法及应用 IR-Lab 马金山 2005-5-24 什么是Co-training? Co-training方法bootstrapping思想的一种实现 主要用于二元分类问题 是一种半指导或无指导的学习方法 用一个小规模的标注数据及一个大规模的未标注数据训练分类器 最早提出此方法之一 D. Yarowsky. 1995. Unsupervised Word Sense Disambiguation Rivaling Supervised Methods 用于词义消歧问题 以plant为例说明 plant:植物 plant:工厂 方法说明 先找出确定的两个特征词 life: plant life manufacturing: manufacturing plant 将这些句子作为种子集 训练过程 使用决策表(decision list)的方法训练一个有指导的分类器,该分类器从种子集中识别出其他的特征搭配,并对这些搭配进行排序。 用得到的分类器对未标注数据(称为剩余集)进行标注,将概率超过阈值的句子加入到种子集中,使用决策列表算法,从增加的数据中又获得新的搭配。 用词义消歧中的one-sense-per-discourse特性对特征进行优化 获取新的特征 反复迭代 返回开始,训练集逐渐增加,剩余集逐渐减少。 当训练参数不变时,算法收敛于一个稳定的剩余集。 从最终的训练集中训练的分类器可用于分析新的数据。 Co-training的描述 从两个角度(views)看一个分类问题; 根据不同的角度分别建立一个模型,在标注集下训练每个模型; 标注未标注的句子,然后找出每个模型都以较高自信度标注的句子; 以不同的方式挑出这些高自信度的句子; 把这些句子加入到训练集中,迭代这个过程,直到未标注数据耗尽。 Anoop Sarkar. 2001. Applying co-training methods to statistical parsing 基于Co-training进行网页分类 Avrim Blum and Tom Mitchell. 1998. Combining labeled and unlabeled data with Co-Training 第一次使用co-training这个概念。 从两个视角进行网页分类 网页的内容特征 网页的超链接 根据每一个特征使用贝叶斯方法设计分类器 分类器设计 三个分类器 based classifier Hyperlink-based classifier Combined classifier。 第三个分类器是基于前两个分类器的输出 P(c|x) = P(c|x1)P(c|x2) x=(x1,x2)是网页的文本特征和超链特征。 训练过程 未标注数据集合U,标注数据集合L 从U中随机抽取u个样本放到小数据集U’中 (1)用L训练出分类器h1和h2 (2)对U’进行标注,从标注结果中选出最可信的p个正例和n个反例,加入到L中 (3)从U中随机抽取2p+2n个样本加入到U’中 以上过程迭代k次 Co-training的应用 应用于动词细分类 将动词v分成8个细类 无指导实验 基于最大熵的分类器C C1:以目标词的上下文为特征 C2:以目标词的前后动词为特征 实验结果 种子集200句 未标注集7800句 效果不好 结果分析 分类器的特征抽取不够合理 未掌握无指导迭代思想的精髓 thanks * 信息检索实验室 * 信息检索实验室 吃,学习 general verb vg 工作,诉讼 noun verb vn 如实,强制 adverb verb vd 掉, 不已 complement verb vb 去, 进 Tendency vq 加以 formal vf 要, 会 auxiliary verb vz 是, 为 copular vx Examples Description Tag ns vg u m q vn n POS tags ns v u m q v n POS tags 武汉 取消 了 49 个 收费 项目 segmentation 武汉取消了49个收费项目 Chinese sentence 0.744024 0.744024 0.744242 Co-training 0.773359 0.787918 0.822034 初始值 组合分类器 位置分类器 上下文分类器 * * * 信息检索实验室
您可能关注的文档
- 五一西安散客旅游调研.pptx
- 系统的频域分析及其应用_第一节连续时间系统的频率响应、第二节连续信号通过系统响应的频域分析.ppt
- 叉车维修保养说明_.ppt
- 绿色含羞__第二组草.ppt
- 第二节__形变与弹力__.ppt
- D小人—绿色系列--ppt图片素材.ppt
- 动态PPT模板--别怀疑-里面都是-特效-请下载观看.ppt
- 安全隐患班会课件(半成品).pptx
- IQC电子器件培训资料.ppt
- 汽车测试技术_第四章.ppt
- 2025届衡阳市第八中学高三一诊考试物理试卷含解析.doc
- 2025届湖南省娄底市双峰一中等五校重点中学高三第二次诊断性检测物理试卷含解析.doc
- 天水市第一中学2025届高三第二次联考物理试卷含解析.doc
- 2025届金华市重点中学高三考前热身物理试卷含解析.doc
- 2025届北京市石景山区第九中学高三第四次模拟考试物理试卷含解析.doc
- 江苏扬州市2025届高三第一次模拟考试物理试卷含解析.doc
- 2025届江苏省南通市高级中学高考物理五模试卷含解析.doc
- 广东省清远市华侨中学2025届高三第一次调研测试物理试卷含解析.doc
- 辽宁省凤城市2025届高三第五次模拟考试物理试卷含解析.doc
- 内蒙古巴彦淖尔市重点中学2025届高考仿真卷物理试卷含解析.doc
文档评论(0)