- 1、本文档共60页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 数据挖掘与客户关系管理 5.1.1数据挖掘技术的由来 5.1.2数据挖掘的定义 5.1.3数据挖掘的功能 5.1.4数据挖掘应用 5.1.5数据挖掘未来研究方向 5.1.1数据挖掘技术的由来 数据爆炸但知识贫乏 支持数据挖掘技术的基础 数据挖掘逐渐演变的过程 5.1.1数据挖掘技术的由来 支持数据挖掘技术的基础 更大,更便宜的存储器 -- 磁盘密度以飞速增长 -- 存储器价格飞快 下降更快,更便宜的信息处理器 -- 分析更多的数据 -- 适应更多复杂的模型 -- 引起更多查询技术 -- 激起更强的可视化技术 数据挖掘处理技术 -- 数理统计 -- 人工智能 -- 机器学习 数据挖掘的逐渐演化的过程 机器学习 数据库中的知识发现KDD 数据挖掘 5.1.2数据挖掘的定义 ?技术上的定义及含义 数据挖掘(Data Mining)就是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的但又是潜在有用的信息和知识的过程。 5.1.2数据挖掘的定义 ?商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 定义为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知或验证已知的规律性,并进一步将其模型化的先进有效的方法。 5.1.2数据挖掘的定义 ?数据挖掘与传统分析方法的区别 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。 数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征. 5.1.3数据挖掘的功能 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。 5.1.3数据挖掘的功能 关联分析 关联是某种事物发生时其他事物会发生的这样一种联系。 关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 5.1.3数据挖掘的功能 分类 按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。 5.1.3数据挖掘的功能 聚类 聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。 5.1.3数据挖掘的功能 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。 5.1.3数据挖掘的功能 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 5.1.4数据挖掘应用 数据挖掘所能解决的典型商业问题包括: 客户群体划分 背景分析 交叉销售 客户流失性分析 客户信用记分 欺诈发现等等。 5.2数据挖掘的技术 统计方法:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等 机器学习方法:归纳学习方法(决策树、规则归纳等)、基于范例的推理、遗传算法、贝叶斯信念网络等。 神经网络方法:前向神经网络、自组织神经网络等。 数据库方法:基于可视化的多维数据分析或OLAP方法,面向属性的归纳方法。 5.2.1常用数据挖掘方法 决策树 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。 数据挖掘中决策树是一种经常要用到的技术,可以用以分析数据,同样也可用来作预测。常用的算法有CHAID、CART、Quest等 5.2.1常用数据挖掘方法 人工神经网络 神经网络用来解决大复杂度问题。神经网络可以很容易的解决具有上百个参数的问题。神经网络常用于两类问题
文档评论(0)