机器学习算法汇总大全课件.ppt

下载文档

76
0
约 411页
2019-04-03 发布于湖北
举报
版权申诉
保障服务

机器学习算法汇总大全课件.ppt

1、本文档共411页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习算法汇总大全课件.ppt预览百度预览txt机器学习算法汇总大全课件.ppt预览百度预览txt

80%双侧置信区间均值为0，标准差为1的正态分布 90%单侧置信区间推导置信区间的一般方法前面介绍的是针对一特定情况推导置信区间估计：基于独立抽取的n个样本，估计离散值假设的errorD(h) 下面介绍的方法是在许多估计问题中用到的通用的方法基于大小为n的随机抽取样本的均值，来估计总体均值的问题通用的过程的步骤确定基准总体中要估计的参数p，例如errorD(h) 定义一个估计量Y（如errorS(h)），它的选择应为最小方差的无偏估计量确定控制估计量Y的概率分布DY，包括其均值和方差通过寻找阈值L和U确定N%置信区间，以使这个按DY分布的随机变量有N%机会落入L和U之间思考题如果假设h在n=65的独立抽取样本上出现r=10个错误，真实错误率的90%置信区间是多少？95%的单侧置信区间（上界）是多少？90%的单侧区间是多少？中心极限定理考虑如下的一般框架在n个独立抽取的且服从同样概率分布的随机变量Y1...Yn中观察试验值令?代表每一变量Yi服从的未知分布的均值，并令?代表标准差，称这些变量Yi为独立同分布随机变量为了估计Yi服从的分布的均值?，我们计算样本的均值中心极限定理说明在n??时，所服从的概率分布为一正态分布，而不论Yi本身服从什么样的分布服从的分布均值为?，而标准差为中心极限定理（2）定理5.1（中心极限定理）考虑独立同分布的随机变量Y1...Yn的集合，它们服从一任意的概率分布，均值为?，有限方差为?2，定义样本均值为，当n??时，式子服从正态分布，均值为0且标准差为1. 中心极限定理说明在不知道独立的Yi所服从的基准分布的情况下，我们可以得知样本均值的分布形式，说明了怎样使用的均值和方差来确定独立的Yi的均值和方差中心极限定理说明了任意样本均值的估计量服从的分布在n足够大时可以近似为正态分布两个假设错误率间的差异问题：考虑某离散目标函数的两个假设h1和h2，h1在一拥有n1个随机抽取的样例的样本S1上测试，h2在一拥有n2个从相同分布中抽取的样例的样本S2上测试，要估计这两个假设的真实错误率间的差异 d=errorD(h1)-errorD(h2) 两个假设错误率间的差异（2）使用5.4节中描述的四个步骤来推导d的置信区间估计确定待估计的参数，如上所述的d 定义一估计量，是d的无偏估计量，即E[ ]=d。由于对于较大的n1和n2，errorS1(h1)和errorS2(h2)都近似遵从正态分布，两个正态分布的差仍为正态分布，方差为两个正态分布的方差的和（5.12）现在知道了服从均值为d、方差为?2的正态分布，因此d的N%置信区间是（5.13）两个假设错误率间的差异（3）上面分析的是h1和h2在相互独立的数据样本上测试的情况，如果在同一个样本上测试h1和h2，那么也可以使用公式5.13计算置信区间这种情况下的方差通常小于式子5.12给出的方差，这是因为单个样本消除了两个样本组合带来的随机差异，这样，由式子5.13给出的置信区间一般来说偏于保守，但结果是正确的假设检验有时感兴趣的是某个特定猜想正确的概率，而不是对某参数的置信区间估计。比如：errorD(h1)errorD(h2)的可能性有多大？例子，假定分别用大小为100的独立样本S1和S2测量h1和h2的样本错误率为0.30和0.20，给定，问errorD(h1)errorD(h2)的概率是多少？d0的概率是多少？概率Pr(d0)等于对d的过高估计不大于0.1的概率，也就是这个概率为落入单侧区间 d+0.10= +0.10的概率假设检验（2）对于落入单侧区间 +0.10的概率，可以通过计算分布在该区间的概率质量来确定落入这个单侧区间的概率将区间 +0.10用允许偏离均值的标准差的数目来重新表示，根据式5.12可得 ?0.061，所以这一区间可近似表示为查表5-1知，关于均值的1.64标准差对应置信度90%的双侧区间，因此这个单侧区间具有95%的置信度因此给定观察 =0.1，errorD(h1)errorD(h2)的概率约为95%。使用统计学术语表述为：接受errorD(h1)errorD(h2)假设的置信度是95% 学习算法比较有时感兴趣的是比较两个学习算法的性能，而不是两个具体的假设本身如何近似地检验