- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘试题
一、辨析题
1.什么是过拟合?什么是泛化性?分析两者的联系和区别 (10’ , 5’ )
2010,2011
答:
过拟合:为了得到一致假设而使假设变得过度复杂称为过拟合。即使用过多的主成分建
立模型,降低了预测能力
泛化性:经过训练的网络 (有限样本 )对于不是样本集 的输入 (其他变量域 )的
预测能力 也指神经网络对新鲜样本的适应能力,该性质称为泛化能力.
联系:
2.请分析特征选择和特征提取有何区别?(10’)
2010,2011
答:
特征提取和特征选择是两类提取有效信息、压缩特征空间的方法:
特征提取:用映射(或变换)的方法把原始特征变换为较少的新特征
特征选择:从原始特征中挑选出一些最有代表性,分类性能最好的特征
从 D 个特征中选取 d 个,共 CdD 种组合 若不限定特征选择个数,则共 2D 种组合 是典
型的组合优化问题
3.试分析回归(regression)和分类(classification )的区别 (10’)
2010
答:
分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性
输出称为分类,或者说是离散变量预测
数据挖掘试题
4.请论述 LDA 和 Fisher’LDA,并辨析其区别 (15’)
2010
答:
Linear discriminant analysis (LDA) 和 Fisher‘s linear discriminant 是统计学和机器学习中
的常用方法 Fisher’s linear discriminant 和 LDA 在很多场合下是等同的。目的是寻找特征的
线性组合,能够最好地分开二类或多分类目标 寻找能解释数据的特征,也就是自变量的线
性组合来表示因变量
线性判别式分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取
分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离
和最小的类内距离,即模式在该空间中有最佳的可分离性
区别:Fisher’s linear discriminant 和 LDA 的区别在于前者没有正态分布假设,也没有同
方差假设
5.请阐述统计学和数据挖掘中“维数灾难”的来源和后果 (5’)
2011
维数灾难(英语:curse of dimensionality,又名维度的诅咒)是一个最早由理查德·贝尔
曼(Richard E. Bellman)在考虑动态优化问题时首次提出来的术语[1][2],用来描述当(数学)
空间维度增加时,分析和组织高维空间 (通常有成百上千维),因体积指数增加而遇到各种
问题场景
当维数提高时,空间的体积提高太快,因而可用数据变得很稀疏 稀疏性对于任何要求
有统计学意义的方法而言都是一个问题,为了获得在统计学上正确并且有可靠的结果,用来
支撑这一结果所需要的数据量通常随着维数的提高而呈指数级增长 而且,在组织和有哪些信誉好的足球投注网站数
据时也有赖于检测对象区域,这些区域中的对象通过相似度属性而形成分组 然而在高维空
间中,所有的数据都很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极
其低效
二、综述题:请解释并论述以下问题
数据挖掘试题
1. 请描述有监督学习、无监督学习和半监督学习的区别和联系
(10’)
2010
答:
联系:
都是在解决类别归属的问题,即给定一些数据,判断每条数据属于哪些类,或者和其他
哪些数据属于同一类等等
区别:
有监督的学习:学习器通过对大量有标记的训练例进行学习,从而建立模型用于预测未
见示例的标记(label)。很难获得大量的标记样本
无监督的学习:无训练样本,仅根据测试样本的在特征空间分布情况来进行标记,准确
性差
半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,在不需人工
干预的条件下结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别
2. 试论述如何将聚类用于数据预处理和选择特征?(10’)
2010
答:
muji
文档评论(0)