大数据的挖掘考试的题目.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实用标准文案 精彩文档 数据挖掘考试题 选择题 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均值和DBSCAN的比较,以下说法不正确的是( ) A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。 C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是:( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 下列关于层次聚类存在的问题说法正确的是:( ) 具有全局优化目标函数 Group Average擅长处理球状的簇 可以处理不同大小簇的能力 Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) A.一旦两个簇合并,该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 C.空间复杂度为 D.具有全局优化目标函数 8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( ) TID 项 集 1 2 3 4 5 {面包,牛奶} {面包,尿布,啤酒,鸡蛋} {牛奶,尿布,啤酒,可乐} {面包,牛奶,尿布,啤酒} {面包,牛奶,尿布,可乐} A.0.4,0.4 B.0.67,0.67 C.0.4,0.67 D.0.67,0.4 9.下列( )是属于分裂层次聚类的方法。 A.Min B.Max C.Group Average D.MST 10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( ) A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并 填空题: 属性包括的四种类型: 、 、 、 。 是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。 3. 基本凝聚层次聚类算法空间复杂度 ,时间复杂度 ,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为 。 4. 聚类中,定义簇间的相似度的方法有(写出四个): 、 、 、 。 5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法: 、 。 6. 组平均是一种界于 和 之间的折中方法。 7. 相似度矩阵可以用相识度表示还可以用 表示。 8. 全链在处理大小不同的簇时,可能使 破裂,并且偏好 。 9. 单链技术擅长于处理 ,但对 和 很敏感。 10. 聚类分析可以看做是一种 的分类。(有监督、无监督) 三.判断题 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。( ) 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。( ) 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( ) 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。( ) DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。( ) 属性的性质不必与用来度量他的值的性质相同。( ) 全链对噪声点和离群点很敏感。( ) 对于非对称的属性,只有非零值才是重要的。( ) K均值可以很好的处理不同密度的数据。( ) 单链技术擅长处理椭圆形状的簇。( ) 四.综合题 1. 何为层次

文档评论(0)

linlin921 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档