- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘概念与技术_第三版_课后习题
写在前⾯
该⽂为数据挖掘概念与技术第三版课后习题的答案,部分参考第⼆版的英⽂答案,由于个⼈⽔平有限,如若存在纰漏,请在评论区批评指
正。另外,由于本次编辑格式较乱,可在资源下载区下载PDF版本以便参考。
第⼀章引论
1.什么是数据挖掘?在你的回答中,强调以下问题:
1)它是⼜⼀种噱头吗?
2)它是⼀种从数据库、统计学、机器学习和模式识别发展⽽来的技术的简单转换或应⽤吗?
3)我们提出⼀种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科
的发展历史提出这⼀观点吗?针对统计学和模式识别领域,做相同的事情。
4)当把数据挖掘当做知识发现过程时,描述数据挖掘所涉及的步骤。
数据挖掘指从⼤量数据中挖掘出有趣模式和知识的过程或⽅法。
数据挖掘不是另⼀种噱头,数据挖掘的兴起是由于海量数据及其转化为有效信息和知识的需求。因此,数据挖掘作为信息技术的⾃然
⾰命的⼀个结果。
数据挖掘⽐从数据库、统计学等简单转换或应⽤更复杂。数据挖掘是数据库、神经⽹络、机器学习、⾼性能计算、模式识别、数据可
视化等的集成和综合。
机器学习与数据挖掘⾼度相关,机器学习模型通常⾮常强调准确性,⽽数据挖掘则强调挖掘⽅法在⼤型数据集上的有效性和可收缩
性,以及处理复杂数据类型的⽅法,开发新的⾮传统⽅法;统计学研究数据的收集、分析、解释和表⽰,与数据挖掘具有天然联系;
统计学⽅法可以⽤来验证数据挖掘结果等。因此可以说数据挖掘是统计学技术进步的结果;模式识别重在认识事物,数据挖掘重在发
现知识,因此可以说数据挖掘是⼀种⽅法,⽤于模式识别。
数据挖掘作为知识发现过程时,步骤有:1)数据清理;2)数据集成;3)数据选择;4)数据转换;5)数据挖掘;6)模式评估;
7)知识表⽰。
2.数据仓库与数据库有何不同?它们有哪些相似之处?
数据库是由⼀组内部相关的数据和⼀组管理和存取数据的软件程序组成;数据仓库是⼀个从多个数据源⼿机的信息存储库。不同点是
数据库由表组成,数据仓库是由数据⽴⽅体的多维数据结构建模。相似点在于数据库和数据仓库都可以存储数据,都是数据分析和挖
掘的信息源。
3.定义以下数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。使⽤你熟悉的现实⽣活中的数据库,
给出每种数据挖掘功能的例⼦。
数据特征化是⽬标类数据的⼀般特性或者特征的汇总。例如可以通过收集销量在前10%的物品的信息,再进⾏特征汇总。
数据区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。例如将销量增加10%和销量减少30%的物品
放在⼀起进⾏⽐较。
数据分类是找出描述和区分数据类或概念的模型,以便能够使⽤模型预测类标号位置的对象的类标号。例如找出描述销量增加30%和
销量减少30%的物品,通过对其特征进⾏描述和建模,再对⼀个新的物品根据其特征将其分类。
回归建⽴连续值函数模型,⽤于预测缺失的难以确定的数据值。例如补全未采样的数据。
聚类根据最⼤化类内相似性、最⼩化类间相似性的原则分析数据对象,但不进⾏类标号。例如可以对客户数据进⾏分析,以簇形式表
⽰每个购物⽬标群。
离群点分析指研究那些与数据的⼀般⾏为或模型不⼀致的数据离散点,可以从中挖掘某种模式。例如使⽤离群点分析发现信⽤卡诈骗
使⽤活动。
4.给出⼀个例⼦,其中数据挖掘对于⼯商企业的成功是⾄关重要的。该⼯商企业需要什么数据挖掘功能?这种模式能够通过简单的查询
处理或统计分析得到吗?
以百货商店为例,可以使⽤数据挖掘去开展商业⽬标邮件活动,可以使⽤聚类⽅法去找出商品的特定消费⼈群的特征,进⽽给与该类
⼈群相似的顾客发送该商品促销邮件。此时简单的查询处理不能找出特定⼈群特征,同样,统计分析不能处理该百货商店⾥⼤量的顾
客数据记录。
5.解释区分和分类、特征化和聚类、分类和回归之间的区别和相似之处。
区分指的是将⽬标类数据的⼀般特性和⼀个或多个对⽐类对象的⼀般特性进⾏⽐较,即找出两者之间的特征区别;分类指的是找出⼀
种模型来描述和区分数据类型或概念,并预测类标号未知的对象的类标号。两者的相似性在于他们都要对⽬标类数据对象进⾏处理和
分析,输出结果都是类别特征,这些类别是预先
文档评论(0)