- 1、本文档共411页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习算法汇总大全课件.ppt预览百度预览txt机器学习算法汇总大全课件.ppt预览百度预览txt
80%双侧置信区间 均值为0,标准差为1的正态分布 90%单侧置信区间 推导置信区间的一般方法 前面介绍的是针对一特定情况推导置信区间估计:基于独立抽取的n个样本,估计离散值假设的errorD(h) 下面介绍的方法是在许多估计问题中用到的通用的方法 基于大小为n的随机抽取样本的均值,来估计总体均值的问题 通用的过程的步骤 确定基准总体中要估计的参数p,例如errorD(h) 定义一个估计量Y(如errorS(h)),它的选择应为最小方差的无偏估计量 确定控制估计量Y的概率分布DY,包括其均值和方差 通过寻找阈值L和U确定N%置信区间,以使这个按DY分布的随机变量有N%机会落入L和U之间 思考题 如果假设h在n=65的独立抽取样本上出现r=10个错误,真实错误率的90%置信区间是多少?95%的单侧置信区间(上界)是多少?90%的单侧区间是多少? 中心极限定理 考虑如下的一般框架 在n个独立抽取的且服从同样概率分布的随机变量Y1...Yn中观察试验值 令?代表每一变量Yi服从的未知分布的均值,并令?代表标准差,称这些变量Yi为独立同分布随机变量 为了估计Yi服从的分布的均值?,我们计算样本的均值 中心极限定理说明在n??时, 所服从的概率分布为一正态分布,而不论Yi本身服从什么样的分布 服从的分布均值为?,而标准差为 中心极限定理(2) 定理5.1(中心极限定理)考虑独立同分布的随机变量Y1...Yn的集合,它们服从一任意的概率分布,均值为?,有限方差为?2,定义样本均值为 ,当n??时,式子 服从正态分布,均值为0且标准差为1. 中心极限定理说明在不知道独立的Yi所服从的基准分布的情况下,我们可以得知样本均值 的分布形式,说明了怎样使用 的均值和方差来确定独立的Yi的均值和方差 中心极限定理说明了任意样本均值的估计量服从的分布在n足够大时可以近似为正态分布 两个假设错误率间的差异 问题: 考虑某离散目标函数的两个假设h1和h2,h1在一拥有n1个随机抽取的样例的样本S1上测试,h2在一拥有n2个从相同分布中抽取的样例的样本S2上测试,要估计这两个假设的真实错误率间的差异 d=errorD(h1)-errorD(h2) 两个假设错误率间的差异(2) 使用5.4节中描述的四个步骤来推导d的置信区间估计 确定待估计的参数,如上所述的d 定义一估计量, 是d的无偏估计量,即E[ ]=d。由于对于较大的n1和n2,errorS1(h1)和errorS2(h2)都近似遵从正态分布,两个正态分布的差仍为正态分布,方差为两个正态分布的方差的和 (5.12) 现在知道了 服从均值为d、方差为?2的正态分布,因此d的N%置信区间是 (5.13) 两个假设错误率间的差异(3) 上面分析的是h1和h2在相互独立的数据样本上测试的情况,如果在同一个样本上测试h1和h2,那么也可以使用公式5.13计算置信区间 这种情况下的方差通常小于式子5.12给出的方差,这是因为单个样本消除了两个样本组合带来的随机差异,这样,由式子5.13给出的置信区间一般来说偏于保守,但结果是正确的 假设检验 有时感兴趣的是某个特定猜想正确的概率,而不是对某参数的置信区间估计。比如:errorD(h1)errorD(h2)的可能性有多大? 例子,假定分别用大小为100的独立样本S1和S2测量h1和h2的样本错误率为0.30和0.20,给定 ,问errorD(h1)errorD(h2)的概率是多少?d0的概率是多少? 概率Pr(d0)等于 对d的过高估计不大于0.1的概率,也就是这个概率为 落入单侧区间 d+0.10= +0.10的概率 假设检验(2) 对于 落入单侧区间 +0.10的概率,可以通过计算 分布在该区间的概率质量来确定 落入这个单侧区间的概率 将区间 +0.10用允许偏离均值的标准差的数目来重新表示,根据式5.12可得 ?0.061,所以这一区间可近似表示为 查表5-1知,关于均值的1.64标准差对应置信度90%的双侧区间,因此这个单侧区间具有95%的置信度 因此给定观察 =0.1,errorD(h1)errorD(h2)的概率约为95%。使用统计学术语表述为:接受errorD(h1)errorD(h2)假设的置信度是95% 学习算法比较 有时感兴趣的是比较两个学习算法的性能,而不是两个具体的假设本身 如何近似地检验
文档评论(0)