网站大量收购闲置独家精品文档,联系QQ:2885784924

第2、3章--神经网络与深度学习课后题参考答案.pdfVIP

第2、3章--神经网络与深度学习课后题参考答案.pdf

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
题目第23章——神经网络与深度学习课后题参考答案21分析为什么平方损失函数不适用于分类问题损失函数是一种非负实数,用来量化模型预测和真实标签之间的差异我们在训练神经网络或深度学习模型时,通常使用正则化SupervisedLearning策略来调整这些参数,以最小化损失函数的值当构建了不连续离散导数为0的函数时,这会对模型造成不可逆影响,因此不能很好地评估分类问题然而,在一些情况下,平方差的损失函数可能仍然适用对于一些简单的分类问题,我们可以

2-1分析为什么平方损失函数不适用于分类问题?

损失函数是一个非负实数,用来量化模型预测和真实标签之间的差异。我

们一般会用损失函数来进行参数的优化,当构建了不连续离散导数为0的函数

时,这对模型不能很好地评估。直观上,对特定的分类问题,平方差的损失有

上限(所有标签都错,损失值是一个有效值),但交叉熵则可以用整个非负域来

反映优化程度的程度。从本质上看,平方差的意义和交叉熵的意义不一样。概

率理解上,平方损失函数意味着模型的输出是以预测值为均值的高斯分布,损

失函数是在这个预测分布下真实值的似然度,softmax损失意味着真实标签的似

然度。

在二分类问题中y={+1,−1}在C分类问题中y={1,2,3,⋅⋅⋅,C}。

可以看出分类问题输出的结果为离散的值。分类问题中的标签,是没有连续的

概念的。每个标签之间的距离也是没有实际意义的,所以预测值和标签两个向

量之间的平方差这个值不能反应分类这个问题的优化程度。比如分类1,2,3,真

实分类是1,而被分类到2和3错误程度应该是一样的,但是明显当我们预测到2

的时候是损失函数的值为1/2而预测到3的时候损失函数为2,这里再相同的结

果下却给出了不同的值,这对我们优化参数产生了误导。至于分类问题我们一

般采取交叉熵损失函数(Cross-EntropyLossFunction)来进行评估。

(n)(n)(n)

2-2在线性回归中,如果我们给每个样本(x,y)赋予一个权重,

r

1N*

(n)(n)T(n)2

w

经验风险函数为R(w)=r(y−wx),计算其最优参数,并

2n=1

(n)

分析权重的作用.

r

*

w

答:其实就是求一下最优参数,即导数为0,具体如下:

首先,取权重的对角矩阵:P=diag(r(n)),,,均以向量(矩阵)表示,则原

xyw

1T2RT

式为:R()=P||Y−X||,进行求导:=−XP(Y−X)=0,解得:

2

*T−1T−1

(XPX)XPY,相比于没有P时的:withoutP(XX)XY,可以简单理

(n)

解为的存在为每个样本增加了权重,权重大的对最优值ω的影响也更大。我

r

们给每一个样本赋予权重r(n),在局部数据进行优化的时候我们对感兴趣的局部

设置权重往往会大一点以用来削弱距离较远的数据带来的影响。倘若在全局进

行优化的时候我们往往会给予样本以相差不大的权重;这里权重是对数据处理进

行的一次人为的标注,以达到我们所期望的最优参数解。

2-3证明在线性回归中,如果样本数量N小于特征数量D+1,则XXT

的秩最大为N.

文档评论(0)

movie + 关注
实名认证
文档贡献者

喜欢分享的作者

1亿VIP精品文档

相关文档