2011年数据挖掘和数据仓库考试题a.docVIP

2011年数据挖掘和数据仓库考试题a.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2011年数据挖掘与数据仓库考试题 (10分)讨论::下列每项活动是否是数据挖掘任务?简单陈述你的理由。 根据性别划分公司的顾客。 不是。数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术服务用来探查大型数据库,发现先前未知的有用模式。还可以预测未来观测结果,例如,预测一位新的顾客是否会在一家百货公司消费100美元以上。但并非所有的信息发现任务都被视为数据挖掘,数据挖掘与信息检索不同,使用数据库管理系统查找个别的记录,或通过因特网的有哪些信誉好的足球投注网站引擎查找特定的Web页面,则是信息检索领域的任务,它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。数据挖掘的任务可分为两大类:预测任务和描述任务。主要任务有四种:聚类分析,关联分析,异常检测,和预测建模。其目的是根据其它属性的值,预测特定属性的值,或导出概括数据中潜在联系的模式,主要是预测某些信息。而根据性别划分公司的顾客,只是一种简单的数据库查询操作,并没有涉及预测分析。 根据可赢利性划分公司的顾客。 不是。根据可赢利性划分公司的顾客是使用阈值进行的一种统计计算。它仅仅是根据消费结果统计将原有顾客进行划分,只是一种统计的结果,而没有根据这些结果的特点预测一个新的顾客的赢利性,这种预测才是数据挖掘。 预测投一对骰子的结果。 不是。因为骰子的六个数值出现的可能性是相同的,这是一种概率计算,如果结果出现的可能性是不确定的,不相同的,则更像是数据挖掘的任务,但在很早以前利用数学已经能够很好的解决这个问题了。所以预测投一对骰子的结果不属于数据挖掘的任务,不带有发现新信息的预测特点。 使用历史记录预测某公司未来的股票价格。 这是数据挖掘的任务。可以通过对历史记录特点的分析来创建一种模型预测未来的公司的股票价格,这是数据挖掘任务中预测建模的一个例子,预测建模涉及以说明变量函数的方式为目标变量建立模型,有两类预测建模任务:分类,用于预测离散的目标变量;回归,用于预测连续的目标变量dmj预测某公司未来的股票价格则是回归任务,因为价格具有连续值属性。 (10分)列举3种数据挖掘功能,对每种举2个实际应用的例子。 (1)支持商务智能应用。借助POS(销售点)数据收集技术,零售商可以在其商店的收银台收集顾客购物的必威体育精装版数据。零售商可以利用这些信息,加上电子商务网站的日志、电购中心的顾客服务记录等其他的重要商务数据,更好地理解顾客的需求,做出明智的商务决策。数据挖掘技术可以用来支持广泛的商务智能应用,如顾客分析、定向营销、工作流管理、商店分布和欺诈检测等。商店可以根据顾客的购物习惯来安排端口的摆放位置,这是日常生活中数据挖掘最常见的一种应用。数据挖掘还能帮助零售商回答一些重要的商务问题,如“谁是最有价值的顾客?”“什么产品可以交叉销售或提升销售?”“公司明年的收入前景如何?”这些是数据挖掘任务中的关联分析。通过商品销售情况,来分析购买商品的顾客特点,根据这些特点重要发掘最可能的消费者,这是关联分析在日常生活中的一种应用。 (2)在医学、科学与工程中的应用。医学、科学与工程技术界的研究者正在快速积累大量数据,这些数据对获得有价值的新发现至关重要。例如,为了更深入地理解地球的气候系统,NASA已经部署了一系列的地球轨道卫星,不停地收集地表、海洋和大气的全球观测数据。然而,由于这些数据的规模和时空特性,传统的方法常常不适合分析这些数据集。数据挖掘开发的技术可以帮助地球科学家回答如下问题:“干旱和飓风等生态系统扰动的频度和强度与全球变暖之间有何联系?”“海洋表面温度对地表降水量和温度有何影响?”“如何准确地预测一个地区的生长季节的开始和结束?”。我国神舟七号载人航天飞船的发射也是数据挖掘的一个应用,传统的技术通常不能处理太大量数据,而利用数据挖掘技术可以将卫星收集到的太空中的大量数据信息进行分析,这样才能保证飞船在太空中的顺利航行。 (10分)比较急切分类(如,判定树、贝叶斯、神经网络)相对于懒散分类(如,k -最临近、基于案例的推理)的优缺点。 决策树归纳的特点:(1)决策树归纳是一种构建分类模型的非参数方法,它不要求任何先验假设,不假定类和其他属性服从一定的概念分布。(2)找到最佳的决策树是NP完全问题,可以采用一种贪心的、自顶向下的递归划分策略建立决策树。(3)已构台构建决策树技术不需要昂贵的计算代价,决策边界是直线(平面)。(4)决策树算法对于噪声的干扰具有相当好的鲁棒性,采用避免过分拟合的方法之后尤其如此。(5)冗余属性不会对决策树的准确率造成不利的影响。(6)决策树方法会存在数据碎片问题。(7)子树可能在决策树中重复多次。(8)当决策树很小时,训练和检验误差都很大,称为模型拟合不足;当规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增大,

文档评论(0)

mtyi297 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档