[理学]第六章 数据挖掘概述.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]第六章 数据挖掘概述

数据挖掘 数据挖掘是最为关键的步骤,它根据KDD的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型。 目前采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。 模式的评估、解释 通过上面步骤所得到的模式,有可能是没有意义或没有实用价值的,因此需要评估,确定那些是有效的、有用的模式。 此外,大部分模式是用数学手段描述的表达式,很难被人理解,还需要将其解释成可理解的方式以呈现给用户。 知识运用 发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。 运用知识有两种方法: 一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持; 一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。 KDD过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。 实现流程 数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类: 1)业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 2)数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 3)数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 数据挖掘是一个多领域专家合作的过程,也是一个在资金上和技术上高投入的过程。 数据挖掘过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优先问题的解决方案。 数据挖掘的应用 数据挖掘技术的产生本身就有其强烈的应用需求背景,它从一开始就是面向应用的。 数据挖掘技术在市场分析、业务管理、决策支持等方面有广泛的应用,是实现CRM和BI的重要技术手段之一。具体涉及数据挖掘的商业问题: 数据库营销(Database Marketing) 客户群体划分(Customer Segmentation Classification) 背景分析(Profile Analysis) 交叉销售(Cross-selling) 客户流失分析(Churn Analysis) 客户信用评分(Credit Scoring) 欺诈甄别(Fraud Detection) 未来趋势 未来的热点应用领域 网站的数据挖掘(Web site data mining) 生物信息或基因的数据挖掘 文本挖掘(Textual mining) 多媒体挖掘 网站的数据挖掘(Website data mining) 电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Log files)和登记表,如何对这些数据进行分析和挖掘,及时地了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加竞争力。 网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备 生物信息或基因的挖掘 生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。 对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法方面,都要复杂得多。从分析算法上讲,更需要一些新的和高效的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。 文本挖掘(Textual mining) 文本挖掘是人们关心的另一个话题。例如,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。 无论是在数据结构还是在分析处理方法方面,文本数据挖掘和数据挖掘相差很大。文本挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正实现语义上的分析功能。 多媒体挖掘(Multimeadia Mining) 基于描述的检索系统 基于图像的描述创建索引并实现对象检索,如关键字、标题、尺寸和创建时间等; 人工实现则极为费时、费力 ; 自动实现则往往结果不理想。 基于内容的检索系统 支持基于图像内容的检索,例如颜色、质地、形状、对象及小波变换 C-BIRD: Content-Based Image Retrieval from Digita

您可能关注的文档

文档评论(0)

skvdnd51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档