- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2-1分析为什么平方损失函数不适用于分类问题?
损失函数是一个非负实数,用来量化模型预测和真实标签之间的差异。我
们一般会用损失函数来进行参数的优化,当构建了不连续离散导数为0的函数
时,这对模型不能很好地评估。直观上,对特定的分类问题,平方差的损失有
上限(所有标签都错,损失值是一个有效值),但交叉熵则可以用整个非负域来
反映优化程度的程度。从本质上看,平方差的意义和交叉熵的意义不一样。概
率理解上,平方损失函数意味着模型的输出是以预测值为均值的高斯分布,损
失函数是在这个预测分布下真实值的似然度,softmax损失意味着真实标签的似
然度。
在二分类问题中y={+1,−1}在C分类问题中y={1,2,3,⋅⋅⋅,C}。
可以看出分类问题输出的结果为离散的值。分类问题中的标签,是没有连续的
概念的。每个标签之间的距离也是没有实际意义的,所以预测值和标签两个向
量之间的平方差这个值不能反应分类这个问题的优化程度。比如分类1,2,3,真
实分类是1,而被分类到2和3错误程度应该是一样的,但是明显当我们预测到2
的时候是损失函数的值为1/2而预测到3的时候损失函数为2,这里再相同的结
果下却给出了不同的值,这对我们优化参数产生了误导。至于分类问题我们一
般采取交叉熵损失函数(Cross-EntropyLossFunction)来进行评估。
(n)(n)(n)
2-2在线性回归中,如果我们给每个样本(x,y)赋予一个权重,
r
1N*
(n)(n)T(n)2
w
经验风险函数为R(w)=r(y−wx),计算其最优参数,并
2n=1
(n)
分析权重的作用.
r
*
w
答:其实就是求一下最优参数,即导数为0,具体如下:
首先,取权重的对角矩阵:P=diag(r(n)),,,均以向量(矩阵)表示,则原
xyw
1T2RT
式为:R()=P||Y−X||,进行求导:=−XP(Y−X)=0,解得:
2
*T−1T−1
(XPX)XPY,相比于没有P时的:withoutP(XX)XY,可以简单理
(n)
解为的存在为每个样本增加了权重,权重大的对最优值ω的影响也更大。我
r
们给每一个样本赋予权重r(n),在局部数据进行优化的时候我们对感兴趣的局部
设置权重往往会大一点以用来削弱距离较远的数据带来的影响。倘若在全局进
行优化的时候我们往往会给予样本以相差不大的权重;这里权重是对数据处理进
行的一次人为的标注,以达到我们所期望的最优参数解。
2-3证明在线性回归中,如果样本数量N小于特征数量D+1,则XXT
的秩最大为N.
文档评论(0)