2014-6-数据挖掘与统计决策复习考试题型.doc

2014-6-数据挖掘与统计决策复习考试题型.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2014-6-数据挖掘与统计决策复习考试题型

PAGE  PAGE 7 《数据挖掘与统计决策》课程复习提纲 2014.6 概念题(约20%) 概念解释(10%) 是非题(10%) 概念题复习要点: 数据挖掘定义?数据挖掘与经典统计建模的异同点? 2、 聚类定义?系统聚类、K均值聚类、Kohonen聚类的原理与特点? 一般聚类数的判别?聚类结果的判别? 3、 神经网络定义?感知机模型、BP模型、RBF模型的原理与应用特点( 包括数据特点、结构特点、映射特点、权值修正特点、误差表示等)? 主成分分析与因子分析方法的特点? 变量与主成分的关系?变量与公共因子的关系? 载荷因子表示公因子与变量的什么关系? 载荷因子取值不同表示公因子与变量关系的哪些不同? 5、决策树方法的定义? ID3、C4.5、二叉树方法的不同应用特点? 决策树的评价标准? 决策树的前后剪枝特点?后剪枝的形式评价与树结构评价定义? 6、关联分析、时序关联分析方法的特点? K项频繁集(大项目集)、K项大序列的定义? 最大频繁(项目)集、最大序列的定义? 频繁集(大项目集)支持度、大序列支持度定义? 关联规则置信度、时序关联规则置信度定义? 规则提取特点?规则检验定义? 7、 遗传算法的定义与特点? 适应值函数、选择算子、交叉算子、变异算子的理论定义?一般设计形式? 模式定理的结论表示? 设计与计算题(约80%): 聚类分析:给出样品属性取值或变量观察值, 1)要求计算距离矩阵,并按系统聚类法,以两点最大或最小距离定义两类相似度进行聚类(样本或变量聚类), 2)表出聚类过程及谱系图,并判别聚类结果。 主成分/因子分析: 给定变量与因子相关的载荷矩阵,在已知特征根及累计贡献率大于一定比例条件下, 1)要求计算或判别选择主要变量、主要主成分、主要因子, 2)用因子表示变量或用变量表示主成分。 四、神经网络模型:给出已知样本与模型设计要求, 1)要求通过样本学习和权值修正获取模型参数,建立神经网络模型(BP、RBF、感知机等), 2)应用建立的模型进行检验、分类或预测。 五、决策树分析:给出某实例集, 1)??求利用ID3算法或C4.5算法或二叉树算法,判别节点与分枝,建立决策树。 2)给定检验样本集,对建立决策树进行检验。 3)在假定条件下,对决策树进行剪枝判别,计算剪枝形式与剪枝结构评价。 六、1)关联分析:给出N个事务对应的物品项、最少支持度和最少可信度,要求用AP方法求最大频繁集和指定项目条件的关联规则。 2)时序关联分析:给出N个时间顾客的事务对应的物品项,最少支持度和最少可信度,要求用AP-G方法求最大序列和指定条件的时序关联规则。 3) 给定检验样本集,要求对提取规则进行检验,要求计算检验的误差。 七、遗传算法: 1)给出N个个体组成的种群,在指定或设计适值函数下,进行选择、交叉与变异运算; 2)给出某一问题,要求设计基因、个体和种群,并针对问题设计合理的适应值函数。 参考试题形式: 一. 概念描述 1.数据挖掘是指 2.遗传算法中的适应值函数是指 3. K-均值聚类是指 4. BP神经网络是指 5时序关联分析是指

文档评论(0)

2017ll + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档