- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE
PAGE 2
数据挖掘研究综述
1.数据挖掘的由来
1.1 网络技术的高度发展
1.2 数据爆炸但知识贫乏:激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。
1.3 支持数据挖掘技术的技术基础:海量数据搜集,强大的多处理器计算机,数据挖掘算法。
1.4 从商业数据到商业信息的进化
进化阶段
商业问题
支持技术
产品厂家
产品特点
数据搜集 (60年代)
“过去五年中我的总收入是多少?”
计算机、磁带和磁盘
IBM,CDC
提供历史性的、静态的数据信息
数据访问 (80年代)
“在新英格兰的分部去年三月的销售额是多少?”
关系数据库(RDBMS),结构化查询语言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft
Oracle、Sybase、Informix、IBM、Microsoft
在记录级提供历史性的、动态数据信息
数据仓库;决策支持 (90年代)
“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”
关系数据库(RDBMS),结构化查询语言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft
Oracle、Sybase、Informix、IBM、Microsoft
在各种层次上提供回溯的、动态的数据信息
数据挖掘(正在流行)
“下个月波士顿的销售会怎么样?为什么?”
高级算法、多处理器计算机、海量数据库
Pilot、Lockheed、IBM、SGI、其他初创公司
提供预测性的信息
2.数据挖掘的定义
什么是数据挖掘? 下面是一些“前人”对数据挖掘的定义:
(1)“挖掘”出数据中隐藏的模式,趋势,关系的过程(Groth);
(2)通过自动或半自动的方式在海量数据中发现有用的模式,规则的过程(Beryy&Linoff);
(3)分析普通的数据(通常是海量的)来发现数据之间比较稳定地关系,以易于理解的方式将数据总结出来向数据所有者提供有价值的决策支持。(Hand,MannilaSmyth);
(4)在不需要人或很少地手工干预下通过可行地计算机技术来挖掘开采数据,对数据进行分析(Wegman);
(5)从大量的数据库中抽取出此前还没发现的有效实用地的信息,并且此后使用此信息来帮助制定关键的商业决策的过程(Cabena etal);
2.1数据挖掘在技术上的定义
数据库中的数据挖掘定义:在可接受的计算效率限制下,应用数据分析和发现算法,从数据库的大量数据中提取正确、新颖、潜在有用和最终可理解模式的过程。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
理解这个定义应注意:
(1) 数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;
(2)原始数据可以是结构化,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。
(3)发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
(4)发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。
2.2 商业角度定义
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
2.3 数据挖掘与传统分析方法的区别
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识;数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。
数据挖掘的特点有:(1)处理的数据规模十分巨大。(2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求。(3)由于数据变化迅速可能很快过时,因此需要对动态数据做出快速反应,以提供决策支持。(4)主要基于大样本的统计规律,其发现的规则不一定适用于所有数据。
与数据挖掘相似的术语:数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞。
2.4数据挖掘的研究对象
数据挖掘中要分析的数据的范围非常广泛,从自然科学、社会科学、商业数据,到科学处理产生的数据或卫星观测得到的数据。它们的数据表示形式也是各种
您可能关注的文档
- 手机搜狐网与杂志媒体合作方案.doc
- 手机新媒体-IFENG凤凰移动台.ppt
- 寿力825VH&750VH零部件目录.doc
- 寿险核保核赔实训指导书.doc
- 授信额度及应收帐款管理办法.doc
- 售后绩效方案.doc
- 售前售后服务费用管理制度.doc
- 书籍版式设计--霍静.ppt
- 书籍借阅管理系统.doc
- 舒城县图书馆新建项目简介.doc
- 必威体育精装版教科版三年级上册科学期末测试卷含答案(突破训练).docx
- 必威体育精装版教科版三年级上册科学期末测试卷精品【考点梳理】.docx
- 必威体育精装版教科版三年级上册科学期末测试卷含答案(完整版).docx
- 必威体育精装版教科版三年级上册科学期末测试卷含答案【能力提升】.docx
- 森林报读后感15篇.doc
- 必威体育精装版教科版三年级上册科学期末测试卷含答案【培优b卷】.docx
- 必威体育精装版教科版三年级上册科学期末测试卷含答案(名师推荐).docx
- 必威体育精装版教科版三年级上册科学期末测试卷带答案(研优卷).docx
- 必威体育精装版教科版三年级上册科学期末测试卷含答案【培优a卷】.docx
- 必威体育精装版教科版三年级上册科学期末测试卷汇编.docx
文档评论(0)