- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多标记学习
多标记学习*
张 敏 灵 1 周 志 华 2
1东南大学计算机科学与工程学院,南京 210096
2南京大学计算机软件新技术国家重点实验室,南京 210093
1. 引言
在机器学习中,传统监督学习(traditional supervised learning)[1]是研究得最多、应用最广泛的
一种学习框架。在该框架下,对于真实世界的每一个对象,学习系统在输入空间用一个示例(instance,
通常为属性向量)刻画对象的性质,同时在输出空间将示例与反映该对象语义信息的类别标记(label)
相关联,这样就得到了一个样本(example)。在拥有了一个较大的样本集合即训练集(training set)
之后,学习系统利用某种学习算法学得输入空间(即示例空间)与输出空间(即标记空间)之间的
一个映射,基于该映射可以预测未见示例(unseen instance)的类别标记。形式化地说,假设 代表
示例空间, 代表标记空间,则学习系统的任务是从训练集 中学得函数
,其中 为一个示例而 为示例 所属的类别标记。在待学习对象具有明确、
单一的语义,即对象的类别标记唯一时,上述传统监督学习框架已经取得了巨大的成功。
然而,真实世界的对象往往并不只具有唯一的语义,而是可能具有多义性的。对于图 1(a)所示
的一篇关于南非世界杯的新闻报道,既可以认为它属于“体育”这个类别,也可以认为它属于“非
洲”这个类别,该报道可能还谈及了本次世界杯对南非在经济层面的影响从而属于“经济”类;再
比如,对于图 1(b)所示的图像而言,既可以认为它属于“日落”这个类别,也可以认为它属于“云”、
“树木”甚至“乡村”类。这样的例子还有很多,一个基因可能同时具有多种功能如“新陈代谢”、
“转录”以及“蛋白质合成”,一首乐曲可能传达了多种信息如“钢琴”、“古典音乐”、“莫扎特”以
及“奥地利”,等等。
由上可见,多义性对象由于不再具有唯一的语义,这就使得前述的只考虑明确、单一的语义的
传统监督学习框架难以取得好的效果。为了直观地反映多义性对象所具有的多种语义信息,一种很
自然的方式就是为该对象显式地赋予一组合适的类别标记,即标记子集。基于上述考虑,作为一种
多义性对象学习建模工具,多标记学习(multi-label learning)框架[2][3]由此应运而生。在该框架下,
每个对象由一个示例描述,该示例具有多个而不再是唯一的类别标记,学习的目标是将所有合适的
类别标记赋予未见示例。
*本文得到国家自然科学基金、教育部博士点基金新教师项目(200802941009)以及东南大学引进人才
启动基金的资助
(a) 一篇文档 (b) 一幅图像
图 1 多义性对象的两个例子
早期,多标记学习的研究主要集中于分档分类(text categorization)中遇到的多义性问题[4][5][6][7]。
经过近十年来的发展,多标记学习技术已在多媒体内容自动标注[8][9][10]、生物信息学[11][12][13]、Web
挖掘[14][15]、信息检索[16][17][18]、个性化推荐[19][20]等领域得到了广泛应用。据笔者不完全统计,近四
年以来(2007 年—2010年),在与机器学习相关的一流国际会议 ICML、NIPS、ECML/PKDD、KDD、
ICDM、IJCAI以及 AAAI 上,标题部分出现“多标记(multi-label / multilabel)”这一关键词的论文
即超过了 30篇。此外,近两年召开的 ECML/PKDD’09以及 ICML/COLT’10均设置了以“Learning from
Multi-Label Data”为主题的 Workshop1。多标记学习的研究进展也得到了国际机器学习界权威刊物
《Machine Learning》的关注,将于近期推出一期以多标记学习为主题的专辑2。
总的来说,多标记学习的研究对于多义性对象的学习建模具有十分重要的意义,现已逐渐成为
国际机器学习界一个新的研究热点。本章将对多标记学习的研究现状做一个简介,首先给出多标记
学习的定义与面临的主要问题,并介绍多标记性能评价指标,然后重点介绍几种具有代表性的多标
记学习算法,最后简要讨论多标记学习的拓展研究课题及相关学术资源。
2. 学习框架
2.1 问题定义
假设 代表 d维的示例空间, 代表包含 q 个类别的标记空间。给定多
标记训练集 ,其中 为d维的属性向量 ,而
您可能关注的文档
- 11.4格林公式及其应用(一).pdf
- 1原子量分子量と物質量-api.pdf
- 1覚えたい元素記号と化学式.pdf
- 1.为什么要上物理实验课大学物理实验课程绪论.pdf
- 18000吨年系列防霉杀菌剂、2000吨年水性纺织固色剂、3200吨年冶炼.pdf
- 2012化学発光.pdf
- 2013IntertekChinaKnowledgeCenterTrainingSchedule(Jul.pdf
- --案例分析15年真题解析(四).pdf
- 2014年锡市场分析报告.pdf
- 2015年度面向中国利民工程无偿援助实绩.pdf
- 2025年职业教育信息化建设中的在线考试系统优化报告.docx
- 2025年职业教育信息化对职业教育课程内容改革影响研究报告.docx
- 2025年职业教育信息化建设中的在线教育平台评估报告.docx
- 2025年职业教育信息化建设中的教育信息化与教育信息化政策分析报告.docx
- 江苏经贸机考职测综合题4.doc
- 2025年职业教育信息化建设中的教育信息化与职业教育终身教育报告.docx
- 2025年职业教育信息化建设中的职业教育信息化教学资源开发策略报告.docx
- 2023年四川东同建设集团有限公司招聘工作人员2名笔试参考题库附带答案详解.doc
- 2025年职业教育信息化建设中的职业教育课程数字化改革实践报告.docx
- 2025年老年健康管理服务体系中老年慢性病社区健康管理实践与评估报告.docx
文档评论(0)