- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
增量学习:领域和方法的一个调查
摘要
随着增量学习在数据挖掘应用领域的逐渐发展,实质上,增量学习算法领先一步发展变得极其重要。无标号数据的巨大增长已经使增量学习产生了一个大的飞跃。从BI应用到图像分类,从分析到预测,每个领域都需要学习和更新。增量学习在开拓新领域的同时可以进行知识积累。在本文中,我们讨论增量学习目前发生的领域和方法以及在决策方面它的突出潜力。本文对于当前的研究基本上给出了一个概述,对这个话题将为学生和研究学者们提供一个背景。
关键字:增量,学习,挖掘,有监督的,无监督的,决策
1.引言
数据挖掘过程面对的一个重要问题是不断演化的新数据。至关重要的是,现有的分类和聚类方法要以这样一种方式解决这个问题:分类器不断的适应它,这里我们就需要增量学习;一种随着新数据的发生这个过程也要跟着发生变化的学习。机器学习的方法像k-均值聚类,被认为是机器学习的枢纽块(关键)之一,在聚类稳定之前必须经过多重扫描[1][2]。其他技术层次的不考虑聚类的总体规模[3]。有监督的和半监督的学习方法允许我们在训练数据的帮助下学习和分类。在有效的学习算法的设计中,连同新的进化数据一起压缩预处理数据创建确定的问题。处理学习知识的问题,同时保持前一个,对于增量学习方法是最重要的目标[4]。另一个问题是当被标记的数据很低并且难以获得用户专业知识的时候如何处理学习。识别领域的学习是否要在线与数据流一起连续被做也影响学习过程。时间和存储空间的约束在学习过程中也扮演一个重要的角色,因此使增量学习变得有效同时又精确是很有必要的。
这个领域的研究已经为增量学习提出了各种方法。在本文中,我们将讨论增量学习如何与现有的有监督的到无监督方法的学习环境使用。尽管当前的工作,许多挖掘和增量学习活动是就特定的领域和应用程序执行,但是有多样的方法和技术证明关于应用的类型是更有用和有益的。这篇文章讨论关于它们的方法和领域来阐明增量学习的概念。
2.现存的学习方法和增量学习
随着增量学习的需要,首先我们讨论关于无监督学习方法到有监督技术。关于增量学习怎样逐渐生成那些学习方法的,本文分阶段开展。我们的论文的重点是在方法、途径和他们的创新,也用于增量学习引用应用程序的类型。理解过程中一个精确增量的方法是,必须明白,增量学习可以是就新增加的知识以及演化成新的类或一个聚类而言。它甚至可以合并或重组这些类。
伴着这些因素,可以确切地说,增量学习在所有的时间构成一个完整的包。考虑到传统的方法和增量学习站的位置就随着每一个应用程序,是在这一部分之前被讨论。
2.1 数学表示和算法
当我们谈论增量学习的时候,它是关于学习方法或者分类器,关于这个环境谁有能力来执行活动。数学上表示为:让表示新的未标记的数据,并且。是分类器,用于增量学习。因此,有where。这里的值可以是现存的类或者新生成的类。控制整个过程。它在可用的新数据的每一个阶段被模仿和学习。这个学习过程在算法上总结如下:
对于每一个或者
用,如果,分类,随着生成,更新,赋值新的
3.聚类和增量学习
通常,属于同一类别或有可能在同一组的发现模式是聚类的主要任务。在聚类中,增量学习找到一个特殊的身份。对于增量聚类是一种需要,这里新数据没有重聚簇就能够适应。
像k-均值[2]一样的聚类算法被控制进行多次扫描,就像BIRCH一样对数据是敏感的[5][6]。影响聚类的其他相关因素是质心(中心)的选定和聚类形成的形状。聚类形成的数量也是一个重要的参数,它控制着学习。在本质上,快速和稳定的算法是增量的可以克服早些时期聚类方法所面对的困难。增量聚类方法旨在限制重聚簇阶段,适应新的无标号数据集,同时要有有效更新的和有效的聚类特征[7]。
关于增量聚类的研究开始于多种因素以及多种领域;一个应用领域是在文档和图像分类。同样的,[8][9]提出增量聚类,那里点的聚类被认为是动态。维持聚类包括合并和更新阶段,这种方法是基于距离测量的,聚类的直径被认为是在截止占据决策。此外,聚类技术往往采用聚类和数据集之间相似度指标的计算,新样本都被增量聚类。[10]以相同的理由提出增量聚类方法,阈值在决定群组时扮演一个重要的角色。随着阈值的出现,一个增量的区分和聚合方法在[11]中被提出,它使用于关系数据集。
在某些情况下贝叶斯方法结合的相似性度量方法使学习更有效[12]。[13]提出一个GRIN算法,与BIRCH(支持增量分层聚类)相对比,这种方法是基于物理的引力理论,能够处理大型数据库。
管理一个带有新数据的数据仓库由增量学习方法来处理是一项挑战。现存的DBSCAN(基于密度的聚类算法)方法被进一步增强为了用于改变环境增量,部分聚类影响被检测并且聚类被带有插入和缺失更新考虑它们的密度[14]。
对于网页分类的增量方法现在也正占据一席之地。基于质心的方法,以及文档的
您可能关注的文档
- 2011年考研高分专业分析011年考研高分专业分析2011年考研高分专业分析2011年考研高分专业分析.doc
- 2011年普通高等学校四川011年普通高等学校四川2011年普通高等学校四川2011年普通高等学校四川.ppt
- 2011年普通高等学校招生国统一考试(北京卷)理科综合物理2011年普通高等学校招生全国统一考试(北京卷)理科综合物理2011年普通高等学校招生全国统一考试(北京卷)理科综合物理2011年普通高等学校招生全国统一考试(北京卷)理科综合物理.doc
- 2011年普通高等学校招生国统一考试(广东a卷)2011年普通高等学校招生全国统一考试(广东a卷)2011年普通高等学校招生全国统一考试(广东a卷)2011年普通高等学校招生全国统一考试(广东a卷).doc
- 2011年普通高等学校招生国统一考试(天津卷)解析版--生物2011年普通高等学校招生全国统一考试(天津卷)解析版--生物2011年普通高等学校招生全国统一考试(天津卷)解析版--生物2011年普通高等学校招生全国统一考试(天津卷)解析版--生物.doc
- 2011年普通高等学校招生国统一考试(天津卷)解析版--历史2011年普通高等学校招生全国统一考试(天津卷)解析版--历史2011年普通高等学校招生全国统一考试(天津卷)解析版--历史2011年普通高等学校招生全国统一考试(天津卷)解析版--历史.doc
- 2011年普通高等学校招生国统一考试(重庆卷)文科综合能力测试试题卷2011年普通高等学校招生全国统一考试(重庆卷)文科综合能力测试试题卷2011年普通高等学校招生全国统一考试(重庆卷)文科综合能力测试试题卷2011年普通高等学校招生全国统一考试(重庆卷)文科综合能力测试试题卷.doc
- 2011年普通高等学校招生国统一考试理科综合能力测试2011年普通高等学校招生全国统一考试理科综合能力测试2011年普通高等学校招生全国统一考试理科综合能力测试2011年普通高等学校招生全国统一考试理科综合能力测试.doc
- 2011年普通高等学校招生国统一考试化学试题(江苏卷)(精校版含答案)2011年普通高等学校招生全国统一考试化学试题(江苏卷)(精校版含答案)2011年普通高等学校招生全国统一考试化学试题(江苏卷)(精校版含答案)2011年普通高等学校招生全国统一考试化学试题(江苏卷)(精校版含答案).doc
- 2011年普通高等学校招生国统一考试第四次适应性训练2011年普通高等学校招生全国统一考试第四次适应性训练2011年普通高等学校招生全国统一考试第四次适应性训练2011年普通高等学校招生全国统一考试第四次适应性训练.doc
最近下载
- 兄弟 DCP-7080 7080D 7180DN MFC7380 7480D 7880DN 维修手册.pdf
- 2024年部编版七年级上册道德与法治期中综合检测试卷及答案.docx VIP
- 3.6.2 中医特色康复医疗的服务标准及规范.docx VIP
- 高低压配电设备设施二级保养记录表.docx VIP
- 2022年上海市高考英语一模试卷2022年上海市高考英语一模听力mp3.pdf
- 2024年浙江省网络安全行业网络安全运维工程师项目职业技能竞赛试题库(初赛+决赛).docx
- 高二上学期期中考试化学试题(含答案).pdf VIP
- 宏碁(Acer)Aspire系列 Aspire R7-571 说明书.pdf
- 中草药栽培技术 环境条件对中草药生长发育的影响 环境条件对中草药生长发育的影响.pptx
- 关于医院医疗领域群众身边不正之风和腐败问题集中整治工作方案.docx VIP
文档评论(0)