网站大量收购闲置独家精品文档,联系QQ:2885784924

第三部分:统计学习基础.pptVIP

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三部分:统计学习基础 有监督学习概述 [ESL] Chp2 回归分析 [ESL] Chp3 [Wasserman] Chp13 模型评估与选择 [ESL] Chp7/8 例:一个回归例子 例: 然后对每个数据加上高斯噪声, 目标: 通过最小化残差的平方和(RSS) 拟合 f 例:一个回归例子(续) 例:一个回归例子(续) 一些术语 有监督学习: 给定包含输入特征 和对应响应 的训练样本,学习Y与X之间的关系 对新的输入x,预测其响应y 如果输出值Y的类型是连续值:回归 根据公司的业绩和经济学数据,预测今后6个月的股票价格 根据患者血液的红外光谱,估计糖尿病患者血液中葡萄糖的含量 如果输出值Y为离散值:分类 根据数字图像,识别手写的邮政编码数据 根据邮件中单词和字符的比例,识别email是否为垃圾邮件 目标 根据训练数据, 正确预测未见过的测试样本 理解哪些输入影响输出 怎样评价预测的质量 哲学思想 理解各种技术背后的基本思想,以知道如何和在什么情况采用这些技术 先理解比较简单的方法,以便掌握更复杂的技术 正确评价方法的性能很重要,以便知道该方法在什么情况下工作得好,在什么情况下工作得不好 [简单的方法通常和那些很华丽时髦的方法工作得一样好!] 一个例子 比较两种最简单的预测方法 线性回归 k近邻法(k - nearest neighbors, knn) 线性回归 输入p维向量,扩展成p+1维: 向量均为列向量 类别G=绿时,Y=0;否则Y=1。 Y用X的线性函数来建模 最简单、也是最常用的模型 线性回归 利用最小二乘法,通过最小化残差的平方和(RSS) 得到 如果 是非奇异的,则唯一解为 则学习得到 f 的估计为 线性回归 对将来的点 的预测为 在训练集上错误率为14% 比随机猜测强的多 但还是有很多错误 决策边界 是线性的 采用更灵活的模型能得到更好的结果? knn 观察其邻居,采取投票的方式 其中 为x0的邻域,由训练样本中最邻近x0的k个点xi 定义( k-近邻) 如果在观测x邻域中某一类明显占优势,则观测样本也更可能属于该类。分类规则为邻域成员的多数票 过拟合 knn比线性回归表现稍好 但我们应警惕过拟合(overfitting)问题 在训练集上模型工作得很好(有时甚至100%正确),但忘记了训练集是一个随机过程的输出,从而训练好的模型可能在其它情况(另外的测试集)工作欠佳 1nn? knn中k的选择? 在测试集上,哪个模型表现最佳? k的选择:偏差—方差折中 较小的k:预测更灵活,但太灵活可能会导致过拟合,从而估计方差更大 较大的k:预测更稳定,但可能不够灵活,不灵活通常与偏差/不准确有关 统计决策理论 令 表示一个实值的随机输入向量, 表示实值的随机输出变量 损失函数: 对回归问题,常用平方误差损失 风险函数(损失函数的期望): 对每个输入x,目标是使风险函数最小,得到: 为条件期望,亦称回归函数。 统计决策理论 对分类问题,常用损失函数为0-1损失函数 风险函数为 对每个输入x,使风险函数最小 结果为最大后验估计(MAP),亦称贝叶斯分类器 贝叶斯分类器 为什么不用贝叶斯分类器 ? 因为通常我们不知道 在上例中我们是已知数据产生的过程 每个类的概率密度为10个高斯的均匀混合 对类别绿,k=1;对类别红,k=2 对类别绿,10个均值从正态分布产生: 对类别红,10个均值从正态分布产生: 方差 贝叶斯分类器 knn是贝叶斯分类器的直观实现 不知道 ,在x附近的小邻域类别为g的数目 用频数近似概率 在点上取条件放宽为在目标点的邻域内取条件 如果取 则贝叶斯分类器与回归函数之间的关系为: knn vs. 线性回归 当 且 时,knn的估计 即该估计是一致的。 但通常没有那么多样本 线性回归假设 的结构是线性的: 并最小化训练样本上的平均损失: 随着样本数目的增多, 收敛于 但模型受到线性假设的限制 knn vs. 线性回归 通过用样本均值来逼近数学期望,knn和线性回归最终都得到近似条件期望。但二者对模型的假设截然不同: 线性回归:假定 可以用一个全局线性函数很好近似 k

文档评论(0)

***** + 关注
实名认证
文档贡献者

本账号下所有文档分享可拿50%收益 欢迎分享

1亿VIP精品文档

相关文档