数据挖掘初探.PDF

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘初探

数据挖掘初探 增值业务部/黄燚 摘要:本文主要介绍数据挖掘产生的背景,跟传统数据库分析方法的区别,研究 的内容和本质,以及数据挖掘能完成的五类功能,基于各种方法的挖掘工具的适 用范围,数据挖掘的标准流程。最后介绍了数据挖掘在电信行业的4种典型应用。 关键词: 数据挖掘、关联、分类、聚类、预测 一、数据挖掘背景 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万 个数据库被用于商业管理、政府办公、科学研究和工程开发等等领域,这一势头 仍将持续发展下去。于是,一个新的挑战被提了出来。在这所谓的信息爆炸的时 代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹 没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公 司的资源,只有充分利用它为公司自身的业务决策和战略发展服务,否则大量的 数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,同时却仍然 感到知识饥饿”的挑战,数据挖掘 (Data Mining)技术应运而生,并得以蓬勃发 展,越来越显示出其强大的生命力。 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取 隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。还有很 多和这一术语相近似的术语,如从数据库中的知识发现 (Knowledge Discovery in Database, KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。 数据挖掘的前身即知识发现(Knowledge Discovery),它源自于人工智能的 1/9 机器学习领域,其实质的内涵是在一个已知状态的数据集(Data Set)上,通过 设定一定的学习算法,从数据集中获取所谓的知识。人工智能领域中的知识发现 技术已经发展到了一个很成熟的阶段,但是由于缺乏应用的土壤,它的路越走越 窄。而与此同时,数据库技术也已经发展到一定的阶段,并得到了广泛的应用, 各个企业都已经积累了无数的数据资源,迫切需要有一种技术能够帮助他们从数 据中发掘出其内在的规律,数据挖掘技术正好能满足这一需求,它实质上就是知 识发现技术在数据库领域中的应用。 二、数据挖掘方法和数据库传统分析方法区别 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的 信息应具有先未知、有效和可实用三个特征。 先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些 不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越 是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过 数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。 三、数据挖掘研究内容和本质 随着 DMKD 研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根 强大的技术支柱:数据库、人工智能和数理统计。目前 DMKD 的主要研究内容包 括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示 方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网 上数据挖掘等。 数据挖掘所发现的知识最常见的有以下四类: (一)广义知识(Generalization) 2/9 广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征 的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性 质,是对数据的概括、精炼和抽象。 广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。 数据立方体还有其他一些别名,如“多维数据库”、“实现视图”、“OLAP等。 该方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求 和、平均、最大值等,并将这些实现视图储存在多维数据库中。既然很多聚集函 数需经常重复计算,那么在多维数据立方体中存放预先计算好的结果将能保证快 速响应,并可灵活地提供不同角度和不同抽象层次上的数据视图。另一种广义知 识发现方法是加拿大SimonFraser大

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档