机器学习题目.docxVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
简答题 简述BP算法 BP算法是由学习过程由信号的正向传播与误差的反向传播两个过程组成。由于多层前馈网络的训练经常采用误差反向传播算法,人们也常把将多层前馈网络直接称为BP网络。 写出三种常用的产生训练集与测试集的方法 留出法、交叉验证法、自助法 写出表达查准率、查全率不同偏好的()公式以及()取不同值时的偏好 真实情况 预测结果 正例 反例 正例 TP(真正例) FN(假反例) 反例 FP(假正例) TN(真反例) 查准率P P=TP/(TP+FP) 查全率R R=TP/(TP+FN) 简述对数几率回归模型 是使用Sigmoid函数作为联系函数时的广义线性模型,是广义线性模型的一个特例。 根据二分类结果混淆矩阵给出的查准率与查全率定义 真实情况 预测结果 正例 反例 正例 TP(真正例) FN(假反例) 反例 FP(假正例) TN(真反例) 查准率P P=TP/(TP+FP) 查全率R R=TP/(TP+FN) 简述P-R曲线 根据学习器的预测结果对样例进行排序,按顺序把样本作为正例预测,得出查准率与查全率,以查准率为纵轴,查全率为横轴作图得到P-R曲线。 根据样例给出相应的版本空间√ 简述Boosting算法工作机制 先从初始训练集中训练出一个基学习器,再根据基学习器的表现对训练样本的分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。 简述数据集()基尼值表达式及含义 画出泛化误差与偏差、方差的关系示意图 简述Bagging算法过程 名词解释 监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。 泛化能力:学得模型适用于新样本的能力。具有强泛化能力的模型,能很好的适用于整个样本空间。 版本空间:概念学习中与已知数据集一致的所有假设的子集集合。 性能度量:衡量模型泛化能力的评价标准。 平衡点BEP:查准率等于查全率时的取值。 AUC:通过对ROC曲线下各部分的面积求和而得。 几率:y/(1-y),反映了X作为正例的相对可能性。 广义线性模型:考虑单调可微函数g(.),y=(wT+b)/g-1。 贝叶斯网:借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布。 无监督学习:从未经标记、分类或分类的测试数据中学习。 泛化误差:指模型在所有数据上的误差。 前馈网络 假设空间:模型属于由输入空间到输出空间的映射的集合, ROC:研究学习器泛化性能的有力工具。根据学习器预测结果对样例进行排序,按顺序依次把样例作为正例预测,每次计算出真正例率TPR和假正例率FPR,分别以他们为横纵坐标作图,得到ROC曲线。 计算题 朴素贝叶斯 ADABOOST 集成 数据集:记录数据的合集。 样本:数据集中关于一个事件或对象的描述。 属性/特征:反应事件或对象在某方面的表现或性质的事项。 样本空间/属性空间/输入空间:属性张成的空间。 学习/训练:从数据中学得模型的过程。 训练数据:训练过程中使用的数据。 训练样本:训练中的每个样本。 训练集:训练样本组成的集合。 假设:学得模型对应了关于数据的某种潜在规律。 真相:数据潜在规律自身。 学习器:学习过程就是为了找出或逼近真相,本书有时将模型称为学习器。 样例:拥有了标记信息的示例。 输出空间/标记空间:一般用(xi,yi)表示第i个样例,其中yi∈Y是样例xi的标记,Y是所有标记的集合。 测试:使用模型预测的过程。 测试样本:被预测的样本。 聚类:将训练集中的西瓜分成若干组。 监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。 无监督学习:从未经标记,分类或分类的测试数据中学习。 泛化:学得模型适用于新样本的能力。具有强泛化能力的模型能适用于整个样本空间。 独立同分布:每个样本都是独立地从这个分布上采样获得的。 版本空间:与训练集一致的“假设集合”。 泛化误差:学习器在新样本上的误差。 经验误差/训练误差:学习器在训练集上的误差。 过拟合:把训练样本自身的一些特性当作所有潜在样本具有的一般性质。 欠拟合:对训练样本的一般性质还没有学好。 欠采样:去除一些反例,使得正反例数目接近再进行学习。 过采样:增加一些正例使正反例数目接近,再进行学习。 阈值移动:基于原始训练集进行学习,但在用训练好的分类器进行预测时,将y’/(1-y’)=y/(1-y) * m-/m+嵌入到其决策过程中。 欠采样法:利用集成学习机制,将反例划分为若干个集合供不同学习器使用,这样对每个学习器来看都进行了欠采样,但是在全局来看不会丢失重要信息。 神经网络:是由具有适应性的简单单元组成,广泛并行互联的网络

文档评论(0)

恰果苏巴 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档