- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据挖掘孙家泽课后答案--第1页
数据挖掘孙家泽课后答案
什么是数据挖掘?在你的回答中,强调以下问题:
1)它是又一种噱头吗?
2)它是一种从数据库、统计学、机器学习和模式识别发展而来的技
术的简单转换或应用吗?
3)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你
认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的
发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事
情。
4)当把数据挖掘当做知识发现过程时,描述数据挖掘所涉及的步骤。
数据挖掘指从大量数据中挖掘出有趣模式和知识的过程或方法。
数据挖掘不是另一种噱头,数据挖掘的兴起是由于海量数据及其转化
为有效信息和知识的需求。因此,数据挖掘作为信息技术的自然革命
的一个结果。
数据挖掘比从数据库、统计学等简单转换或应用更复杂。数据挖掘是
数据库、神经网络、机器学习、高性能计算、模式识别、数据可视化
等的集成和综合。
机器学习与数据挖掘高度相关,机器学习模型通常非常强调准确性,
而数据挖掘则强调挖掘方法在大型数据集上的有效性和可收缩性,以
及处理复杂数据类型的方法,开发新的非传统方法;统计学研究数据
的收集、分析、解释和表示,与数据挖掘具有天然联系;统计学方法
可以用来验证数据挖掘结果等。因此可以说数据挖掘是统计学技术进
数据挖掘孙家泽课后答案--第1页
数据挖掘孙家泽课后答案--第2页
步的结果;模式识别重在认识事物,数据挖掘重在发现知识,因此可
以说数据挖掘是一种方法,用于模式识别。
数据挖掘作为知识发现过程时,步骤有:1)数据清理;2)数据集成;
3)数据选择;4)数据转换;5)数据挖掘;6)模式评估;7)知识
表示。
数据仓库与数据库有何不同?它们有哪些相似之处?
数据库是由一组内部相关的数据和一组管理和存取数据的软件程序
组成;数据仓库是一个从多个数据源手机的信息存储库。不同点是数
据库由表组成,数据仓库是由数据立方体的多维数据结构建模。相似
点在于数据库和数据仓库都可以存储数据,都是数据分析和挖掘的信
息源。
定义以下数据挖掘功能:特征化、区分、关联和相关性分析、分
类、回归、聚类、离群点分析。使用你熟悉的现实生活中的数据库,
给出每种数据挖掘功能的例子。
数据特征化是目标类数据的一般特性或者特征的汇总。例如可以通过
收集销量在前10%的物品的信息,再进行特征汇总。
数据区分是将目标类数据对象的一般特性与一个或多个对比类对象
的一般特性进行比较。例如将销量增加10%和销量减少30%的物品放
在一起进行比较。
数据分类是找出描述和区分数据类或概念的模型,以便能够使用模型
预测类标号位置的对象的类标号。例如找出描述销量增加30%和销量
减少30%的物品,通过对其特征进行描述和建模,再对一个新的物品
数据挖掘孙家泽课后答案--第2页
数据挖掘孙家泽课后答案--第3页
根据其特征将其分类。
回归建立连续值函数模型,用于预测缺失的难以确定的数据值。例如
补全未采样的数据。
聚类根据最大化类内相似性、最小化类间相似性的原则分析数据对象,
但不进行类标号。例如可以对客户数据进行分析,以簇形式表示每个
购物目标群。
离群点分析指研究那些与数据的一般行为或模型不一致的数据离散
点,可以从中挖掘某种模式。例如使用离群点分析发现信用卡诈骗使
用活动。
给出一个例子,其中数据挖掘对于工商企业的成功是至关重要的。
该工商企业需要什么数据挖掘功能?这种模式能够通过简单的查询
处理或统
文档评论(0)