- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2012J增量学习领域和方法的一个调查
增量学习:领域和方法的一个调查
摘要
随着增量学习在数据挖掘应用领域的逐渐发展,实质上,增量学习算法领先一步发展变得极其重要。无标号数据的巨大增长已经使增量学习产生了一个大的飞跃。从BI应用到图像分类,从分析到预测,每个领域都需要学习和更新。增量学习在开拓新领域的同时可以进行知识积累。在本文中,我们讨论增量学习目前发生的领域和方法以及在决策方面它的突出潜力。本文对于当前的研究基本上给出了一个概述,对这个话题将为学生和研究学者们提供一个背景。
关键字:增量,学习,挖掘,有监督的,无监督的,决策
1.引言
数据挖掘过程面对的一个重要问题是不断演化的新数据。至关重要的是,现有的分类和聚类方法要以这样一种方式解决这个问题:分类器不断的适应它,这里我们就需要增量学习;一种随着新数据的发生这个过程也要跟着发生变化的学习。机器学习的方法像k-均值聚类,被认为是机器学习的枢纽块(关键)之一,在聚类稳定之前必须经过多重扫描[1][2]。其他技术层次的不考虑聚类的总体规模[3]。有监督的和半监督的学习方法允许我们在训练数据的帮助下学习和分类。在有效的学习算法的设计中,连同新的进化数据一起压缩预处理数据创建确定的问题。处理学习知识的问题,同时保持前一个,对于增量学习方法是最重要的目标[4]。另一个问题是当被标记的数据很低并且难以获得用户专业知识的时候如何处理学习。识别领域的学习是否要在线与数据流一起连续被做也影响学习过程。时间和存储空间的约束在学习过程中也扮演一个重要的角色,因此使增量学习变得有效同时又精确是很有必要的。
这个领域的研究已经为增量学习提出了各种方法。在本文中,我们将讨论增量学习如何与现有的有监督的到无监督方法的学习环境使用。尽管当前的工作,许多挖掘和增量学习活动是就特定的领域和应用程序执行,但是有多样的方法和技术证明关于应用的类型是更有用和有益的。这篇文章讨论关于它们的方法和领域来阐明增量学习的概念。
2.现存的学习方法和增量学习
随着增量学习的需要,首先我们讨论关于无监督学习方法到有监督技术。关于增量学习怎样逐渐生成那些学习方法的,本文分阶段开展。我们的论文的重点是在方法、途径和他们的创新,也用于增量学习引用应用程序的类型。理解过程中一个精确增量的方法是,必须明白,增量学习可以是就新增加的知识以及演化成新的类或一个聚类而言。它甚至可以合并或重组这些类。
伴着这些因素,可以确切地说,增量学习在所有的时间构成一个完整的包。考虑到传统的方法和增量学习站的位置就随着每一个应用程序,是在这一部分之前被讨论。
2.1 数学表示和算法
当我们谈论增量学习的时候,它是关于学习方法或者分类器,关于这个环境谁有能力来执行活动。数学上表示为:让表示新的未标记的数据,并且。是分类器,用于增量学习。因此,有where。这里的值可以是现存的类或者新生成的类。控制整个过程。它在可用的新数据的每一个阶段被模仿和学习。这个学习过程在算法上总结如下:
对于每一个或者
用,如果,分类,随着生成,更新,赋值新的
3.聚类和增量学习
通常,属于同一类别或有可能在同一组的发现模式是聚类的主要任务。在聚类中,增量学习找到一个特殊的身份。对于增量聚类是一种需要,这里新数据没有重聚簇就能够适应。
像k-均值[2]一样的聚类算法被控制进行多次扫描,就像BIRCH一样对数据是敏感的[5][6]。影响聚类的其他相关因素是质心(中心)的选定和聚类形成的形状。聚类形成的数量也是一个重要的参数,它控制着学习。在本质上,快速和稳定的算法是增量的可以克服早些时期聚类方法所面对的困难。增量聚类方法旨在限制重聚簇阶段,适应新的无标号数据集,同时要有有效更新的和有效的聚类特征[7]。
关于增量聚类的研究开始于多种因素以及多种领域;一个应用领域是在文档和图像分类。同样的,[8][9]提出增量聚类,那里点的聚类被认为是动态。维持聚类包括合并和更新阶段,这种方法是基于距离测量的,聚类的直径被认为是在截止占据决策。此外,聚类技术往往采用聚类和数据集之间相似度指标的计算,新样本都被增量聚类。[10]以相同的理由提出增量聚类方法,阈值在决定群组时扮演一个重要的角色。随着阈值的出现,一个增量的区分和聚合方法在[11]中被提出,它使用于关系数据集。
在某些情况下贝叶斯方法结合的相似性度量方法使学习更有效[12]。[13]提出一个GRIN算法,与BIRCH(支持增量分层聚类)相对比,这种方法是基于物理的引力理论,能够处理大型数据库。
管理一个带有新数据的数据仓库由增量学习方法来处理是一项挑战。现存的DBSCAN(基于密度的聚类算法)方法被进一步增强为了用于改变环境增量,部分聚类影响被检测并且聚类被带有插入和缺失更新考虑它们的密度[14]。
对于网页分类的增量方法现在也正占据一席之地。基于质心的方法,以及文档的更新和网页
您可能关注的文档
- 1117修改基于数值积分的变位储油罐罐容表标定改进算法.doc
- 115S传动轴配466发动机设计计算报告-20090618.doc
- 115S传动轴配474发动机设计计算报告-20090618.doc
- 04314-2006车用前照灯技术标准.doc
- 1113西气东输郑州站分输扩能改造工程施工组织设计.doc
- 11116161液压实验指导书ver10.doc
- 11电脑硬件常见故障与维修.doc
- 11集合及其表示.doc
- 11地方应用型高水平大学2016年度建设项目工作任务书葛浩-自动化.doc
- 11通信系统的基本概念.doc
- i86V用户手册操作手册_V0.3-20231130.pdf
- JJF(赣) 037-2024 细集料亚甲蓝测定仪搅拌器校准规范.pdf
- 开学第一课-哪吒收心快闪(还玩,收你们来啦!).pptx
- FTA5111_用户手册说明书_V1.1_202110281702.pdf
- JJF(赣) 039-2024 真空干燥箱校准规范.pdf
- 飞音时代_P2EXP_用户手册_V1.1_20241114.pdf
- 安全生产管理制度考试题库及答案.docx
- 安全生产管理人员安全资格培训试题及答案.docx
- 餐饮食品安全管理人员必备知识试题含答案.docx
- 2025年危险化学品经营单位安全管理人员模拟考试题库及答案.docx
最近下载
- 2023年我国电线电缆行业发展分析报告.docx
- 《汽车维护与保养》说课稿.ppt VIP
- 2025年河南水利与环境职业学院单招职业技能考试试题及答案解析2025.pdf VIP
- 《珠宝玉石及贵金属检验检测服务规范》(征求意见稿).docx
- 《珠宝玉石及贵金属检验检测服务规范》征求意见稿编制说明.docx
- 土木工程施工全套教学课件.pptx
- 一种工业用全蒸汽熨斗.pdf VIP
- 2023年中考语文必考文学名著专题练习《简爱》含详解.pdf
- 2024年河南应用技术职业学院单招职业适应性测试题库及答案解析.pdf
- 2025年莱芜职业技术学院高职单招数学历年(2016-2024)频考点试题含答案解析.docx
文档评论(0)