- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计学习的基本元素
统计学习的基本元素包含三要素分别为模型、策略及算法。
第一 模型
? ? 所要学习的条件概率分布或决策函数,模型的假设空间包含所有可能的条件概率分布或决策函数。
? ??F={?f?|?Y=f(X)?}, ?F={?f?|?Y=fθ(X),θ∈Rn?}
? ? 条件概率
? ? F={?P?|?P(Y?|?X)?}, F={?P?|?Pθ(Y?|?X),θ∈Rn?}
第二 策略
? ? 为了从假设空间中选取最优模型,需要引用一些手段来评估模型。
1)损失函数
? ? 损失函数度量模型一次预测的好坏,常用的损失函数有:
? ? 1. 0 - 1损失函数(0-1 loss function)
? ? ? ? L(Y,?f(x))={?1,?Y≠f(x)??0,?Y=f(x)?}
? ? 2. 平方损失函数(quadratic loss function)
? ? ? ? L(Y,?f(x))=(Y???f(x))2
? ? 3. 绝对损失函数(absolute loss function)
? ? ? ? L(Y,?f(x))=|Y???f(x)|
? ? 4. 对数损失函数(logarithmic loss function)或对数似然损失函数(log-likelihood loss function)
? ? ? ? L(Y,?f(x))=?logP(Y?|?x)
2)风险函数
? ? 损失函数值越小,模型就越好。由于模型的输入,输出(X,?Y)是随机变量,遵循联合分布P(X,?Y),所以损失函数的期望是
? ? ? ? Rexp(f)=Ep[L(Y,?f(X))]=∫x×yL(y,?f(x))P(x,?y)dxdy
? ? 这是理论上模型f(x)关于联合分布P(X,?Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。学习的目标就是选择期望风险最小的模型,由于联合分布P(Y?|?X)是未知的,Rexp(f)不能直接计算。
? ? 模型f(x)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作Remp:
? ? ? ? Remp(f)=1N∑i=1nL(yi,?f(xi))
? ? 期望风险Rexp(f)是模型关于联合分布的期望损失,经验风险Remp(f)是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险Rempf(x)趋于期望风险Rexpf(x),所以一个很自然的想法是用经验风险估计期望风险。但是,由于现实中训练样本数目有限甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正,这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
?
3)经验风险最小化
? ? 在假设空间,损失函数以及训练数据集确定的情况下,经验风险函数式就可以确定,经验风险最小化(empirical risk minimizatiion, ERM)的策略认为,经验风险最小的模型是最优模型。
? ? ? minf∈F1N∑i=1nL(yi,?f(xi))
? ? 当样本容量是够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛应用,比如,极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
? ? 但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合(over-fitting)”现象。
4)结构化风险最小化
? ? 结构化风险最小化(structural risk minimization, SRM)是为了防止过拟合而提出来的策略。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。在假设空间,损失函数以及训练数据集确定的情况下,结构风险的定义是:
? ? ? ? Rsrm(f)=1N∑i=1nL(yi,?f(xi))?+?λJ(f)
? ? 其中J(f)为模型的复杂度,是定义在假设空间 F 上的泛函,模型 f 越复杂,复杂度J(f)就越大;反之,模型 f 越简单,复杂度J(f)就越小,也就是说,复杂度表示了对复杂模型的惩罚,λ≥0是系数,用以权衡经验风险和模型复杂度,结构风险小需要经验风险与模型复杂度同时小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。
? ? 结构风险最小化的策略认为结构风险最小的模型是最优的模型:
? ? ? ? minf∈F1N∑i=1nL(yi,?f(xi))?+?λJ(f)
第
文档评论(0)