- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据流挖掘研究和其进展
数据流挖掘研究及其进展
计算机应用技术 刘晓莹)
摘 要: 有关数据流挖掘技术的研究是当前国际数据库研究领域的一个热点,数据流的特点在于数据规模宏大,并快速、持续地到达,对应的挖掘算法只能在内存中单遍扫描样本子集就可以获取相应的知识结构,还需要在一定时间内对学习的结果进行更新以适应数据分布的变化。本文对现有数据流上的挖掘算法进行综述,最后给出了数据流挖掘今后的一些研究方向。
关键词:数据流;挖掘;聚类;分类;频繁模式;时间序列
Abstract: The study on mining data streams is one of the hot topics among the database circle all over the world recently. Data streams are continuous, unbounded, rapid, time-varying streams of data elements. Mining algorithms on data streams are concerned with extracting knowledge structures by one-pass scan in memory, updating the results to suit the change of the distribution. This article introduces some data stream mining algorithms and summarizes the main ideas. Finally, this paper presents some research trends in this area.
Keywords: data streams; mining; cluster; classification; frequent pattern; time series
1 引 言
在实时监控、联机分析等先进应用领域,如网络监控、股市分析、传感器网络等,需要对大量的动态数据进行实时的、连续的数据收集与查询处理。由于连续到达的数据的多样性、快速性、时变性等特点, 形成了难以预测的无界数据流,传统的数据库技术很难提供有效的管理,于是产生了数据流这一新型技术。
数据流管理系统(Data Stream Management System,DSMS)不同于传统的数据库管理系统(Data Base Management System,DBMS), 当数据在线到达之后,并不是存储到磁盘上,而是直接进入到流查询处理器当中,流查询处理器实时地对数据进行处理。当用户或应用注册一个查询之后,流查询处理器将保持这个查询直至其失效为止,也就是说用户注册的查询始终保持有效状态,这也就是连续查询(Continuous query)的形式.数据流入查询处理器之后,查询处理器直接根据当前注册的查询对数据进行操作,所产生的结果同样以流的形式返回给用户或应用。
目前,国外很多大学和研究机构都在对数据流管理系统(Data Stream Management System,DSMS)进行研究,并进行了原型系统的开发以及相关算法的研究。例如斯坦福大学的STREAM系统[1],加州大学伯克力分校的TelegraphCQ系统[2],布朗大学和麻省理工大学合作的Aurora系统[3],威斯康星州立大学的NiagaraCQ[4]。 其它项目还包括StatStream[5]、Gigascope[6]等等。
在数据流管理系统基础上,结合机器学习、知识发现、数据挖掘等理论和技术,同时兴起一项新的智能信息处理技术-数据流挖掘. 例如,在实时数据流监测应用中,需要提供预定义模式的检测、数据流间相关性的发现、频繁项的发现、异常点的捕捉等功能。
近几年来,数据流的挖掘研究已经得到学术界的广泛关注.在聚类、分类、频繁模式发现和时序分析等几个方面针对数据流的挖掘算法相继被提出,以下将对这些算法进行综述。
2 聚 类
聚类是根据数据的不同特征,将其分组为不同的数据类或簇(cluster),使得同一类个体之间的距离尽可能小,而不同类别个体之间的距离尽可能大。流数据的分析为聚类算法提出了前所未有的挑战,因为新算法需要能够只使用新数据就能追踪聚类的变化,这就要求算法必须是增量式的, 要尽可能少的扫描数据集, 而且对聚类的表示要简洁,对新数据的处理要快速,对噪音和异常数据要稳健。
近年来,很多学者提出了基于流数据的聚类算法,它们可以应用于某些数据流问题。
2.1 基于K-median的方法
K-median算法中,每个簇用接近聚类中心的一个对象来表示。文献[7]首先提出了基于K-median方法的单遍
您可能关注的文档
- 微机原理复习总结,考试题和答案.doc
- 电子技术应用和实践教学设计.ppt
- 环境问题和环境保护.ppt
- 微机原理和运用第9章.ppt
- 电子技术应用和实践说课稿.ppt
- 环境现状调查和评价.ppt
- 电子病历水平评价和“三甲”评审(卢红).ppt
- 微机原理第三章 8086指令系统和汇编语言程序设计-2.ppt
- 电子帐册MQ服务器和数据接口结构定义介绍.ppt
- 电度表和电流互感器接法和工艺要求.doc
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)