数据挖掘孙家泽课后答案.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据挖掘孙家泽课后答案--第1页

数据挖掘孙家泽课后答案

什么是数据挖掘?在你的回答中,强调以下问题:

1)它是又一种噱头吗?

2)它是一种从数据库、统计学、机器学习和模式识别发展而来的技

术的简单转换或应用吗?

3)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你

认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的

发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事

情。

4)当把数据挖掘当做知识发现过程时,描述数据挖掘所涉及的步骤。

数据挖掘指从大量数据中挖掘出有趣模式和知识的过程或方法。

数据挖掘不是另一种噱头,数据挖掘的兴起是由于海量数据及其转化

为有效信息和知识的需求。因此,数据挖掘作为信息技术的自然革命

的一个结果。

数据挖掘比从数据库、统计学等简单转换或应用更复杂。数据挖掘是

数据库、神经网络、机器学习、高性能计算、模式识别、数据可视化

等的集成和综合。

机器学习与数据挖掘高度相关,机器学习模型通常非常强调准确性,

而数据挖掘则强调挖掘方法在大型数据集上的有效性和可收缩性,以

及处理复杂数据类型的方法,开发新的非传统方法;统计学研究数据

的收集、分析、解释和表示,与数据挖掘具有天然联系;统计学方法

可以用来验证数据挖掘结果等。因此可以说数据挖掘是统计学技术进

数据挖掘孙家泽课后答案--第1页

数据挖掘孙家泽课后答案--第2页

步的结果;模式识别重在认识事物,数据挖掘重在发现知识,因此可

以说数据挖掘是一种方法,用于模式识别。

数据挖掘作为知识发现过程时,步骤有:1)数据清理;2)数据集成;

3)数据选择;4)数据转换;5)数据挖掘;6)模式评估;7)知识

表示。

数据仓库与数据库有何不同?它们有哪些相似之处?

数据库是由一组内部相关的数据和一组管理和存取数据的软件程序

组成;数据仓库是一个从多个数据源手机的信息存储库。不同点是数

据库由表组成,数据仓库是由数据立方体的多维数据结构建模。相似

点在于数据库和数据仓库都可以存储数据,都是数据分析和挖掘的信

息源。

定义以下数据挖掘功能:特征化、区分、关联和相关性分析、分

类、回归、聚类、离群点分析。使用你熟悉的现实生活中的数据库,

给出每种数据挖掘功能的例子。

数据特征化是目标类数据的一般特性或者特征的汇总。例如可以通过

收集销量在前10%的物品的信息,再进行特征汇总。

数据区分是将目标类数据对象的一般特性与一个或多个对比类对象

的一般特性进行比较。例如将销量增加10%和销量减少30%的物品放

在一起进行比较。

数据分类是找出描述和区分数据类或概念的模型,以便能够使用模型

预测类标号位置的对象的类标号。例如找出描述销量增加30%和销量

减少30%的物品,通过对其特征进行描述和建模,再对一个新的物品

数据挖掘孙家泽课后答案--第2页

数据挖掘孙家泽课后答案--第3页

根据其特征将其分类。

回归建立连续值函数模型,用于预测缺失的难以确定的数据值。例如

补全未采样的数据。

聚类根据最大化类内相似性、最小化类间相似性的原则分析数据对象,

但不进行类标号。例如可以对客户数据进行分析,以簇形式表示每个

购物目标群。

离群点分析指研究那些与数据的一般行为或模型不一致的数据离散

点,可以从中挖掘某种模式。例如使用离群点分析发现信用卡诈骗使

用活动。

给出一个例子,其中数据挖掘对于工商企业的成功是至关重要的。

该工商企业需要什么数据挖掘功能?这种模式能够通过简单的查询

处理或统

文档评论(0)

136****8179 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档