- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
从数据中挖掘知识
维普资讯
第 17卷 第 4期 福建师范大学学报 (自然科学版) Voi.I7 No.4
2001年 l2月 JournalofFuiianTeachersUniversity (NaturalScience) Dec.2001
文章编号:1000—5277(2001)04—0113—05
从数据中挖掘知识
刘建华
(福建师范大学计算机系,福建福州 350007)
摘要:解释了数据挖掘的旨jL.从数椐挖掘的知识类型度作为进行阐述.对每种知识类型的主要挖掘技
术作 了介绍,最后介绍一种用模糊关系的聚类挖掘方法.
关键词:数据挖掘}知识发现}敷据库
中国分类号:TP392 文献标识码:A
随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度增长.全世界每天
新存人数据库的数据量超过万兆字节.现代计算机技术和数据库技术,已可以支持存储并快速检索这
样规模的数据库.但是,随着大量的大规模的数据库迅速不断地增长,仅用查询检索不能帮助用户从
数据中提取带有结论性的有用信息.这样数据库中蕴藏的丰富知识,就得不到充分的发掘和利用.从
而造成了信息的浪费,由此也会产生大量的数据垃圾.因此,这需要新的技术来 “智能的”和 “自动
的”分析这些原始数据,以使消耗大量财力与物力所收集与整理的宝贵资源——数据得以利用.这些
都需要新的数据处理技术从数据库发现新的知识——数据挖掘 (DataMining)便应运而生了.
1 数据挖掘的含义
数据挖掘,有时也称作数据库中的知识发现,是一个从数据库中抽取隐含的、以前未知的、潜在
有用信息的过程.数据挖掘的研究内容是,能 自动地去处理数据库中大量的原始数据,从中挖掘有哪些信誉好的足球投注网站
出具有必然性的、富有意义的模式 (Pattern).
从技术上来说,数据挖掘 (DataMining)就是从大量的、不完全的、有噪声的 模糊的、随机的
实际应用数据中,提取隐含在其中的 人们事先不知道的、但又是潜在有用的信息和知识的过程.
这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知
识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现
问题.数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘
知识,提供决策支持.
从商业角度来说,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量
业务数据进行抽取、转换 分析和其它模型化处理,从中提取辅助商业决策的关键性数据.所有企业面
临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经
过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而
得名.
2 数据挖掘的知识种类
收稿 日期:2001—06—22
作者茼介:刘建华 (1968一 ).男.江西安福人.助教.硕士
维普资讯
福 建 师 范大 学 学报 (自然 科 学 版) 2001拒
本文从挖掘出的知识类型来对数据挖掘进行分类研究,这有助于对数据挖掘的一个更深的理解.从
挖掘出的知识类型来说,数据挖掘所挖掘出的知识最常见的有 以下4类:
2.1 广义知识 (Generalization)
广义知识指类别特征的概括性描述知识.根据低层的、具体的、微观的数据,发现其带有普遍性
的 较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象.所
以,一般也把挖掘这种知识的技术叫做知识的泛化.
广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等.数据立方体还有其
它一些 名,如 “多维数据库” “实现视图”、“OLAP 等.该方法的基本思想是实现某些常用的代价
较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在
文档评论(0)