- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘初探
数据挖掘初探
增值业务部/黄燚
摘要:本文主要介绍数据挖掘产生的背景,跟传统数据库分析方法的区别,研究
的内容和本质,以及数据挖掘能完成的五类功能,基于各种方法的挖掘工具的适
用范围,数据挖掘的标准流程。最后介绍了数据挖掘在电信行业的4种典型应用。
关键词: 数据挖掘、关联、分类、聚类、预测
一、数据挖掘背景
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万
个数据库被用于商业管理、政府办公、科学研究和工程开发等等领域,这一势头
仍将持续发展下去。于是,一个新的挑战被提了出来。在这所谓的信息爆炸的时
代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹
没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公
司的资源,只有充分利用它为公司自身的业务决策和战略发展服务,否则大量的
数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,同时却仍然
感到知识饥饿”的挑战,数据挖掘 (Data Mining)技术应运而生,并得以蓬勃发
展,越来越显示出其强大的生命力。
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取
隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。还有很
多和这一术语相近似的术语,如从数据库中的知识发现 (Knowledge Discovery
in Database, KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。
数据挖掘的前身即知识发现(Knowledge Discovery),它源自于人工智能的
1/9
机器学习领域,其实质的内涵是在一个已知状态的数据集(Data Set)上,通过
设定一定的学习算法,从数据集中获取所谓的知识。人工智能领域中的知识发现
技术已经发展到了一个很成熟的阶段,但是由于缺乏应用的土壤,它的路越走越
窄。而与此同时,数据库技术也已经发展到一定的阶段,并得到了广泛的应用,
各个企业都已经积累了无数的数据资源,迫切需要有一种技术能够帮助他们从数
据中发掘出其内在的规律,数据挖掘技术正好能满足这一需求,它实质上就是知
识发现技术在数据库领域中的应用。
二、数据挖掘方法和数据库传统分析方法区别
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是
数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的
信息应具有先未知、有效和可实用三个特征。
先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些
不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越
是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过
数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。
三、数据挖掘研究内容和本质
随着 DMKD 研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根
强大的技术支柱:数据库、人工智能和数理统计。目前 DMKD 的主要研究内容包
括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示
方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网
上数据挖掘等。
数据挖掘所发现的知识最常见的有以下四类:
(一)广义知识(Generalization)
2/9
广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征
的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性
质,是对数据的概括、精炼和抽象。
广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。
数据立方体还有其他一些别名,如“多维数据库”、“实现视图”、“OLAP等。
该方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求
和、平均、最大值等,并将这些实现视图储存在多维数据库中。既然很多聚集函
数需经常重复计算,那么在多维数据立方体中存放预先计算好的结果将能保证快
速响应,并可灵活地提供不同角度和不同抽象层次上的数据视图。另一种广义知
识发现方法是加拿大SimonFraser大
您可能关注的文档
- 控制器局域网络(CAN-Bus) - Bourns.PDF
- 控制器局域网络(CAN)控制器 - 北京乾勤科技英飞凌开发工具电机控制.PDF
- 控制系统 - 赫克中国.PDF
- 推荐信息及调研的有关表格.DOC
- 掺杂LiYF4:Er,Yb纳米晶的聚合物平面光波导放大器.PDF
- 掺铁硅基稀磁半导体薄膜的制备及其电学和磁学性质研究.DOC
- 提高第三代自动对盘系统的市场资料播送讯息量及提升线路频宽-HKEx.PDF
- 搅拌摩擦焊和变极性等离子弧焊作为新兴的铝合金焊接工艺-航空航天港.PDF
- 搭建Java集成开发环境学习完本章后,你应该知道并掌握:安装与配置.DOC
- 摘要85EA是通过电子束辐照获得的胞质突变型小麦不育系 采用.PDF
最近下载
- 传染病预防控制必修和选修答案-2024年全国疾控系统“大学习”活动.docx VIP
- 高血压的护理查房ppt课件.pptx VIP
- 教学查房输尿管结石【共35张PPT】.pptx VIP
- 弘扬教育家精神争做时代大先生培训心得16篇.docx VIP
- 取芯筒技术规范.pdf
- 2024年新人教版七年级数学上册教学课件 第四章 整式的加减 4.2 整式的加法与减法(第2课时去括号).pptx
- 2024年秋季部编版七年级上册道德与法治第三单元珍爱我们的生命第9课第2课时提高防护能力.pptx VIP
- 《外贸单证(双语)》课程教学大纲(本科).pdf VIP
- 科技文本翻译.ppt
- 2023中小学教师数据素养作业.docx
文档评论(0)