- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中科院研究生院机器学-习课程习题
1、考虑回归一个正则化回归问题。在下图中给出了惩罚函数为二次正则函数,当正则化参数C取不同值时,在训练集和测试集上的log似然(mean log-probability)。(10分)
(1)说法“随着C的增加,图2中训练集上的log似然永远不会增加”是否正确,并说明理由。
(2)解释当C取较大值时,图2中测试集上的log似然下降的原因。
2、考虑线性回归模型:,训练数据如下图所示。(10分)
(1)用极大似然估计参数,并在图(a)中画出模型。(3分)
(2)用正则化的极大似然估计参数,即在log似然目标函数中加入正则惩罚函数,
并在图(b)中画出当参数C取很大值时的模型。(3分)
(3)在正则化后,高斯分布的方差是变大了、变小了还是不变?(4分)
图(a) 图(b)
2. 考虑二维输入空间点上的回归问题,其中在单位正方形内。训练样本和测试样本在单位正方形中均匀分布,输出模型为,我们用1-10阶多项式特征,采用线性回归模型来学习x与y之间的关系(高阶特征模型包含所有低阶特征),损失函数取平方误差损失。
(1) 现在个样本上,训练1阶、2阶、8阶和10阶特征的模型,然后在一个大规模的独立的测试集上测试,则在下3列中选择合适的模型(可能有多个选项),并解释第3列中你选择的模型为什么测试误差小。(10分)
训练误差最小
训练误差最大
测试误差最小
1阶特征的线性模型
X
2阶特征的线性模型
X
8阶特征的线性模型
X
10阶特征的线性模型
X
(2) 现在个样本上,训练1阶、2阶、8阶和10阶特征的模型,然后在一个大规模的独立的测试集上测试,则在下3列中选择合适的模型(可能有多个选项),并解释第3列中你选择的模型为什么测试误差小。(10分)
训练误差最小
训练误差最大
测试误差最小
1阶特征的线性模型
X
2阶特征的线性模型
8阶特征的线性模型
X
X
10阶特征的线性模型
X
(3) 多项式回归模型的预测误差与训练样本的数目有关。 (T)
3、我们对下图(a)所示的数据采用简化的线性logistic回归模型进行两类分类,即
。
(为了简化,我们不采用偏差。)
训练数据可以被完全分开(训练误差为0,如图1(b)所示的L1)。
(b) 数据点可以被L1
(b) 数据点可以被L1(实线)完全分开。L2、L3和L4是另外几个可能的决策边界。
(a) 2维训练数据。
考虑一个正则化的方法,即最大化
。
注意只有被惩罚。则当C很大时,如图1(b)所示的4个决策边界中, L2、L3和L4 可以通过正则得到吗?
答:L2不可以。当正则w2时,决策边界对x2的依赖越少,因此决策边界变得更垂直。而图中的L2看起来不正则的结果更水平,因此不可能为惩罚w2得到;
L3可以。w2^2相对w1^2更小(表现为斜率更大),虽然该决策对训练数据的log概率变小(有被错分的样本);
L4不可以。当C足够大时,我们会得到完成垂直的决策边界(线 x1 = 0 或x2轴)。L4跑到了x2轴的另一边使得其结果比其对边的结果更差。当中等程度的正则时,我们会得到最佳结果(w2较小)。图中的L4不是最佳结果因此不可能为惩罚w2得到;
(2)如果正则项为L1范式,即最大化
。
则随着C增大,下面哪种情形可能出现(单选)?
(a) 将变成0,然后也将变成0。(T)
(b) 和将同时变成0。
(c) 将变成0,然后也将变成0。
(d) 两个权重都不会变成0,只是随着C的增大而减小0。
该数据可以被完全正确分类(训练误差为0),且仅看x2的值(w1 = 0)就可以得到。虽然最佳分类器w1可能非0,但随着正则量增大w1会很快接近0。L1正则会使得w1完全为0。随着C的增大,最终w2 会变成0。
4、LDA
现有100个标注好的训练样本(共有两个类),我们训练以下模型:
GaussI : 每类一个高斯分布,两个类的方差矩阵均设为单位矩阵I;
GaussX: 每类一个高斯分布,但协方差矩阵不做任何约束;
LinLog: 线性logistic回归模型(特征的线性组合);
QuadLog: 二次logistic回归模型(所以特征的一次和二次组合)。
训练后,我们用训练集上的平均log似然作为模型性能的度量,并用等式或不等式表示模型间的性能关系,如“model 1 = model 2” 或 “model 1 = model 2”
GaussI = LinLog (both have logistic postiriors, and LinLog is the logistic model maximizing the average log probabilities)
GaussX = QuadLog (
您可能关注的文档
最近下载
- 德邦快递_销售体系优化项目_销售体系现状分析报告v1.0_20150413汇报版.pptx VIP
- 必威体育精装版子宫颈高级别上皮内病变管理的中国专家共识2022(完整版).pdf
- 雨棚清单报价表格.docx
- 光电图像处理-PPT课件(全).pptx
- 《初中英语阅读课“教-学-评”一体化的实践研究》课题研究方案.doc
- YC_T 10.4-2018烟草机械 通用技术条件 第4部分:灰铸铁件.pdf
- 一种应用于港口无人集卡的路径调度仿真测试方法、系统及介质.pdf VIP
- 人教版八年级地理上册《4-3 工业》教学课件PPT初二优秀公开课.pptx
- 5.2吸收借鉴优秀道德成果.pptx
- 消费者债务清理条例 - 司法院.doc VIP
文档评论(0)