微课9-1 数据挖掘方法.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;数据挖掘是人工智能和数据库领域研究的热点问题,它是指从大量的数据中通过算法有哪些信誉好的足球投注网站其中隐含的、先前未知的并有潜在价值信息的非平凡的决策支持过程。持续重视数据挖掘,其主要原因是存在着可以广泛使用的大量数据,并且迫切需要将这些数据转换成有用的信

息和知识,可以广泛用于各种应用。数据

挖掘通常与计算机科学有关,并通过统计

学、在线分析处理、情报检索、机器学习、

专家系统、模式识别和可视化技术等诸多

方法来实现上述目标。;了解数据(将其转化为信息)并利用数据(再将其转化为知识)是一项巨大的工程。当然,这种人类需要花费大量时间才能完成的任务可以交由计算机,但人们往往并不确定到底想要计算机寻找什么样的答案。

数据存储在数据库中,而时间和直觉是有所收获的重要前提,如果能自动生成这些数据间的联系无疑对商家来说更有吸引力。;所有人工智能方法都可以用于数据挖掘,特别是神经网络及模糊逻辑,其中,决策树是数据挖掘时常用的技术,可用于市场定位,找出最相关的数据来预测结果。;购物车分析是十分流行的策略,它可以帮助我们找到顾客经常一起购买的商品。假设研究发现,许多购买意大利通心粉的顾客会同时购买意大利面酱,就可以在他们下次购物时向其提供面酱的折扣。此外,我们还可以优化货物的摆放位置,既保证顾客能找到自己想要的产品,又能让他们在寻找的过程中路过可能会冲动购物的商品。

购物车分析面临的问题是我们需要考虑大量可能的产品组合。;在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型(NBC)。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础以及稳定的分类效率。同时,朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。

了解哪些数据常常共存固然有用,但有时候我们更需要理解为什么会发生这样的情况。有一种验证此类假说的统计方法叫做贝叶斯网络,其数学计算极其复杂,但自动化操作相对容易得多。贝叶斯网络的核心是贝叶斯定理。

;数据挖掘是一种决策支持过程,它主要基于人工智能、机??学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的每个数据,从大量数据中寻找其规律,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。

知识发现过程由数据准备、数据挖掘(规律寻找)

结果(规律)表达和解释这三个阶段组成。数据

挖掘可以与用户或知识库交互。

数据挖掘的任务有关联分析、聚类分析、分类分

析、异常分析、特异群组分析和演变分析等。;20世纪90年代,随着数据库系统的广泛应用和网络技术的高速发展,数据库技术也进入一个全新的阶段,即从过去仅管理一些简单数据发展到管理由各种计算机所产生的图形、图像、音频、视频、电子档案、Web页面等多种类型的复杂数据,并且数据量也越来越大。数据库在给我们提供丰富信息的同时,也体现出明显的海量信息特征。;数据的类型可以是结构化的、半结构化的,甚至是异构型的。发现知识的方法可以是数学的、非数学的,也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。

数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,其中包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,其中包含半结构化数据甚至异构性数据的数据源。;发现知识的方法可以是数字的、非数字的,也可以是归纳的。最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。

在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊地实施并取得成功。很多软件供应商和数据挖掘顾问公司都提供了一些数据挖掘过程模型,来指导他们的用户一步步地进行数据挖掘工作。

数据挖掘过程模型主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。;数据挖掘分为有指导的数据挖掘和无

指导的数据挖掘。有指导的数据挖掘

是利用可用的数据建立一个模型,这

个模型是对一个特定属性的描述。无

指导的数据挖掘是在所有的属性中寻

找某种关系。具体而言,分类、估值

和预测属于有指导的数据挖掘;关联

规则和聚类属于无指导的数据挖掘。

图8-6有指导的数据挖掘原型示意;数据挖掘有很多用途,例如可以在患者群的数据库中查出某药物和其副作用的关系。这种关系可能在1000人中也不会出现一例,但药物学相关的项目就可以运用此方法减少对药物有不良反应的病人数量,还有可能挽救生命;但这当中还是存在着数据库可能被滥用的问题。

数据挖掘用其他方法不可能实现的方法来发现信息,但它必须受到规范,应当在适当的说明下使用。如果数据是收集自特定的个人,那么就会出现一些涉及必威体育官网网址、法律和伦理

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档