对线性回归、逻辑回归、各种回归的概念学习--以及一些误差等具体含义 (2)2015.doc

下载文档

3
0
约5.01千字
约 12页
2017-06-16 发布于北京
举报
版权申诉
保障服务

对线性回归、逻辑回归、各种回归的概念学习--以及一些误差等具体含义 (2)2015.doc

1、本文档共12页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

? 对线性回归、逻辑回归、各种回归的概念学习回归问题的条件/前提： 1）收集的数据 2）假设的模型，即一个函数，这个函数里含有未知的参数，通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据。 1. 线性回归假设特征和结果都满足线性。即不大于一次方。这个是针对收集的数据而言。收集的数据中，每一个分量，就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数，向量表示形式：这个就是一个组合问题，已知一些数据，如何求里面的未知参数，给出一个最优解。一个线性矩阵方程，直接求解，很可能无法直接求解。有唯一解的数据集，微乎其微。基本上都是解不存在的超定方程组。因此，需要退一步，将参数求解问题，转化为求最小误差问题，求出一个最接近的解，这就是一个松弛求解。求一个最接近解，直观上，就能想到，误差最小的表达形式。仍然是一个含未知参数的线性模型，一堆观测数据，其模型与数据的误差最小的形式，模型与数据差的平方和最小：这就是损失函数的来源。接下来，就是求解这个函数的方法，有最小二乘法，梯度下降法。 /wiki/%E7%BA%BF%E6%80%A7%E6%96%B9%E7%A8%8B%E7%BB%84 最小二乘法是一个直接的数学求解公式，不过它要求X是列满秩的，梯度下降法分别有梯度下降法，批梯度下降法，增量梯度下降。本质上，都是偏导数，步长/最佳学习率，更新，收敛的问题。这个算法只是最优化原理中的一个普通的方法，可以结合最优化原理来学，就容易理解了。 2. 逻辑回归逻辑回归与线性回归的联系、异同？逻辑回归的模型是一个非线性模型，sigmoid函数，又称逻辑回归函数。但是它本质上又是一个线性回归模型，因为除去sigmoid映射函数关系，其他的步骤，算法都是线性回归的。可以说，逻辑回归，都是以线性回归为理论支持的。只不过，线性模型，无法做到sigmoid的非线性形式，sigmoid可以轻松处理0/1分类问题。另外它的推导含义：仍然与线性回归的最大似然估计推导相同，最大似然函数连续积（这里的分布，可以使伯努利分布，或泊松分布等其他分布形式），求导，得损失函数。逻辑回归函数 ? 表现了0,1分类的形式。应用举例：是否垃圾邮件分类？是否肿瘤、癌症诊断？是否金融欺诈？ 3. 一般线性回归线性回归是以高斯分布为误差分析模型；逻辑回归采用的是伯努利分布分析误差。而高斯分布、伯努利分布、贝塔分布、迪特里特分布，都属于指数分布。而一般线性回归，在x条件下，y的概率分布 p(y|x) 就是指指数分布. 经历最大似然估计的推导，就能导出一般线性回归的误差分析模型（最小化误差模型）。 softmax回归就是一般线性回归的一个例子。有监督学习回归，针对多类问题（逻辑回归，解决的是二类划分问题），如数字字符的分类问题，0-9,10个数字，y值有10个可能性。而这种可能的分布，是一种指数分布。而且所有可能的和为1，则对于一个输入的结果，其结果可表示为：参数是一个k维的向量。而代价函数：是逻辑回归代价函数的推广。而对于softmax的求解，没有闭式解法（高阶多项方程组求解），仍用梯度下降法，或L-BFGS求解。当k=2时，softmax退化为逻辑回归，这也能反映softmax回归是逻辑回归的推广。线性回归，逻辑回归，softmax回归三者联系，需要反复回味，想的多了，理解就能深入了。 4. 拟合：拟合模型/函数由测量的数据，估计一个假定的模型/函数。如何拟合，拟合的模型是否合适？可分为以下三类合适拟合欠拟合过拟合看过一篇文章（附录）的图示，理解起来很不错： ?欠拟合：合适的拟合过拟合过拟合的问题如何解决？问题起源？模型太复杂，参数过多，特征数目过多。方法： 1）减少特征的数量，有人工选择，或者采用模型选择算法 /heaad/archive/2011/01/02/1924088.html （特征选择算法的综述） ? ? ?2）正则化，即保留所有特征，但降低参数的值的影响。正则化的优点是，特征很多时，每个特征都会有一个合适的影响因子。 5. 概率解释：线性回归中为什么选用平方和作为误差函数？假设模型结果与测量值误差满足，均值为0的高斯分布，即正态分布。这个假设是靠谱的，符合一般客观统计规律。数据x与y的条件概率：若使模型与测量数据最接近，那么其概率积就最大。概率积，就是概率密度函数的连续积，这样，就形成了一个最大似然函数估计。对最大似然函数估计进行推导，就得出了求导后结果：平方和最小公式 6. 参数估计与数据的关系拟合关系 7. 错误函数/代价函数/损失函数：线性回归中采用平方和的形式，一般都是由模