- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据流挖掘方法综述
数据流挖掘方法综述
?
孙雨音
(南京大学 计算机科学与技术系, 南京 210093)
A Survey of Mining Data Streaming
Yuyin Sun*
(Department of Computer Science and Technology, Nanjing University, Nanjing 210093, China)
Abstract: The technology development of network and telecommunication, especially the widely usage of small
wireless sensor,has result that such open environment application as real-time surveillance systems, network
intrusion detection and click streams generate huge volume, time-serial, high-speed, potentially unbounded data
every moment. This makes streaming data mining a hot topic of data mining. There are already some classic
streaming data mining technologies. In this article, we give a brief introduction to streaming data and streaming
data mining algorithms, and we introduce all the algorithms by categories of data mining such as classification,
clustering, and frequent pattern mining. To sum up, we put forward some open problem and further research issues
in this domain.
Key words: Stream data, Streaming data model, Analysis methods, classification, clustering, rule extraction
摘 要: 近年来,随着网络和通信技术的发展,尤其是小型无线传感器设备的广泛应用的发展,诸如实时监
控系统、气象遥感卫星、网络入侵检测等开放环境下的应用不断的产生大量、时序、快速变化和潜在无限的
数据。具有上述特点的数据被称为流数据。越来越多流数据的产生和应用的需求使得对于流数据的挖掘变得
炙手可热。流数据的挖掘随着研究的发展逐渐形成了一些基本的技术。本文简单回顾了流数据的产生和流数
据的特点,介绍了针对流数据特点进行的建模方法和一些流数据的典型应用。并且按照传统数据挖掘的范畴
对流数据挖掘在相应领域的方法进行了介绍和总结。在本文的最后,我们对流数据挖掘的前景做了展望,提
出了流数据挖掘方面的一些开放问题和可能的热点技术。
关键词: 流数据,流数据的建模,基本分析技术,分类,聚类,规则挖掘
? 作者简介:孙雨音,南京大学计算机系,研究生2
1 引言
通常人们接触的数据都是以文件形式存储在磁盘上的数据,例如现在使用最广泛的关系数据库就是对
保存在磁盘中的数据上进行数据库管理操作。但是,随着网络和通信等技术的发展,尤其是小型无线传感器
设备的广泛应用,数据采集变得更加的快捷和自动化。许多新型的应用领域,诸如实时监控系统、气象卫星
遥感、网络通信检测以及电力供应网等,每时每刻都在长生大量的数据。这些数据并不事先存放在存储介质
中,而是想水的流通一样不断的出现,它们具有快速(high speed)、时序(temporally ordered)、海量(massive)
等特征,被称作流数据。一些文献[30] 中对流数据给出了这样的一个定义:“流数据是采用一系列数字编码的
信号,用来表示信号传递过程中的信息”。
从上一段的描述中,可以总结得到流数据的三个特点:
1.流数据到达是高速的。这个特性以及产生流数据的应用的特性要求我们在处理流数据时必须有与数
据流相匹配的快速操作。
2.数据的到达是连续不断的。高速和连续意味着流数据的数据量是潜在无限的。我们无法估计到底有
多少数据、也不确定到底有多少个数据流。使用传统的方式将数据先保存在磁盘上在进行分析就变得非常的
不现实(即使硬盘空间足够大到可以容纳所有的数据,主存也不能做到一
您可能关注的文档
- 建筑节能概念之一--中空玻璃.doc
- 建筑裂缝处理.doc
- 建筑防排烟方式选择.doc
- 建议书_乔木方案1.doc
- 建设单位工程师技术工作指引.doc
- 建设项目审计新探.doc
- 建筑策划在商业性建筑保护与再开发项目的实施策略.doc
- 建筑防火墙.doc
- 开关电源环路增益测试.doc
- 开敞式盾构机推进力的计算.pdf
- 公务员考试时事政治通关训练试卷详解重点附答案详解.docx
- 公务员考试时事政治题库整理复习资料及完整答案详解【各地真题】.docx
- 公务员考试时事政治过关检测附答案详解【综合题】.docx
- 公务员考试时事政治通关模拟题库【培优】附答案详解.docx
- 公务员考试时事政治通关模拟题库附完整答案详解(必刷).docx
- 公务员考试时事政治通关模拟卷附答案详解【达标题】.docx
- 公务员考试时事政治通关测试卷含答案详解【典型题】.docx
- 公务员考试时事政治过关检测试卷(夺冠系列)附答案详解.docx
- 公务员考试时事政治通关测试卷word附答案详解.docx
- 公务员考试时事政治题型+答案(考点题)及参考答案详解(轻巧夺冠).docx
最近下载
- 氰化氢气体检测报警器地方校准规范.docx VIP
- DL∕T 5205-2016 电力建设工程量清单计算规范 输电线路工程.pdf VIP
- 《化学品分类和危险性公示通则》.doc VIP
- 湖北省武汉市硚口区2024-2025学年五年级(上)期末语文试卷(有答案).pdf VIP
- 15、团体标准-卷烟制造工业数据安全分类分级.pdf VIP
- 广州数控DA98A 使用手册(新版).pdf
- 2023实景三维地理信息数据倾斜摄影测量技术规程.pdf VIP
- DB6528_T 205-2024 棉花轻简化栽培技术规程.docx VIP
- 引以为戒 扣好廉洁从政的“第一粒扣子”ppt课件(1).pptx VIP
- 高考数学必考503母题【含答案】.pdf VIP
文档评论(0)