- 1、本文档共63页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘在商务智能决策与CRM中的应用北京科技大学杨炳儒 教授数据挖掘(知识发现)新进展数据挖掘在商务智能决策中的应用数据挖掘在CRM中的应用第一部分数据挖掘(知识发现)新进展一、数据挖掘(知识发现)概念内涵与外延的发展二、挖掘知识类型的扩展三、挖掘技术方法的扩展四、应用的扩展五、研究动态与趋向一、数据挖掘(知识发现)概念内涵与外延的发展结构化数据挖掘DM(KDD)Web:1、以文本为主的页面内容挖掘2、以客户访问信息为主3、以Web结构为主多媒体数据构成的大型异质异构数据库,称为复杂数据类型挖掘CDM[动态(在线)-分布式-并行系统]多媒体:音频、视频、图像、图形、时序、空间等基于知识库的知识发现KDK知识发现的新定义: 在现实世界中,针对客观存在的具有海量性、不确定性、不完全性的量的、质的、复杂形态的知识源,挖掘其中潜在的、先前未知的、用户感兴趣的、最终可被用户理解的模式的非平凡提取过程。扩展扩展二、挖掘知识类型的扩展关联规则、分类、聚类、相似模式、混沌模式、时序模式、预测等文本、客户访问路径、音频、视频……生物信息挖掘、游戏信息挖掘、XML文档、多语言文本挖掘、图表数据库、分子结构数据库等三、挖掘技术方法的扩展统计学(数理统计)、证据理论、机器学习、神经网络、粗糙集、近似推理、小波、分形、概念格、概念树提升、决策树等扩展Hilbert空间、信息融合与神经网络结合、距离测度函数、数据立方体、隐马尔可夫模型、信息熵、主观Bayes方法、信息扩散等四、应用的扩展金融、医疗保健、市场业、零售业、制造业、工程与科学、经纪业和安全交易、证券交易、瑕疵分析、政府和防卫、电信、司法、企业经营管理等等应用领域扩展Internet、农业、气象、远程教育、天文学、生物信息、地理信息等等实例和软件的扩展Marksman、Think Machine、DataMind、Intelligent Miner、KnowledgeSEEKER、等等MSMiner、KDD*、KDK*、KD(DK)等等五、研究动态与趋向 目前国际上KDD的研究主要是以知识发现的任务描述、知识评价与知识表示为主线,有效的知识发现算法为中心。这是在相当长的一段时间内保持的主流与基调。 国外研究动态2003年8月27日在华盛顿召开了第九届知识发现与数据挖掘国际会议,参与讨论的专家一致认为: 数据挖掘正面临着巨大的机遇和挑战。其中U. Fayyad认为从科学发展的长远来看,最大的绊脚石是基础理论的缺乏以及所面临的问题和挑战的清晰明白的阐述。 他认为对于我们要做什么,几乎没有理论甚至工程实践来指导:在今天它仍然是” 不为人知的艺术”。 我们需要理论来指导我们要做什么以及要如何作。这些理论能够促使工程解决方法的出现,这样我们也可以将我们的 “手艺”更有效的教给其他人。而这种形势与从业者以及对应用感兴趣的人们的巨大的热情同时存在,这些人来自不同的领域,但是没有科学根基以及持续的学术发展,本领域不可能得到发展与巩固。R.Uthurusamy认为WEB的使用和生产厂家的大肆宣传等都会在短期内影响本领域的发展,它们会使得我们将更多的精力投向数据库营销、CRM和OLAP等方面,而不是致力于使KDD从根本上或科学上有大的进步。KDD的基础研究界必须消除这些干扰而去努力解决KDD的真正的根本的问题。国内研究动态我们编制了了软件对中国期刊网上1994年至今的论文进行了分类与统计。1、历年发表文章数分类汇总图示如下(含所有的类别共11707篇) 2、按照数据挖掘、决策支持系统、专家系统方面的文章统计图示如下:(评价)发展的基本特征(1)原有理论方法的深化与拓展 如: 1)网络数据挖掘;流数据;混合数据。 2)基于神经网络的的时序数据、相似序列、快速挖掘算法的研究等。 3)粗糙集与支持向量机模型与方法的扩展。 4)凸分析与数据包络分析方法的运用。 5)增强(强化)学习模型与方法的运用。(2)复杂类型(系统)数据挖掘成为热点 如:1) 生物信息挖掘。 Knowledge Discovery for Promoter Structure Analysis Study of Motif Correlation in Proteins by Data Mining (用数据挖掘技术进行蛋白质中启动子的结构分析) 2)半结构化、非结构化等复杂类型数据挖掘。 A Method for Mining Data of Sequential Images---- Rebuilding of Gray (Position) time Function on Arbitrary Direction Lines (基于图表数据库知识发现系统的概念等级聚类 ) 3)分布式数据挖掘系统。 4)动态、在线数据挖掘系统。 5
文档评论(0)