大数据挖掘与统计机器学习最全课件完整版ppt全书电子教案全套教学教程PPT课件.pptx

下载文档 降价啦

51
0
约2.35万字
约 166页
2021-10-25 发布于辽宁
举报
版权申诉
保障服务

大数据挖掘与统计机器学习最全课件完整版ppt全书电子教案全套教学教程PPT课件.pptx

1、本文档共166页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据挖掘与统计机器学习大数据挖掘与统计机器学习、宋捷（2016），《大数据挖掘与统计机器学习》，中国人民大学出版社第一章：概述第二章：线性回归方法第三章：线性分类方法第四章：模型评价与选择第五章：决策树与组合方法第六章：神经网络与深度学习第七章：支持向量机第八章：聚类分析第九章：推荐系统第十章：大数据案例分析R、Python上机实践大数据案例分析: 单机及分布式实现主要参考书Hastie, Tibshirani, Friedman (2008), The Elements of Statistical Learning – Data Mining, Inference and Prediction, Second Edition, SpringerJames, Witten, Hastie and Tibshirani (2013), An Introduction to Statistical Learning with Applications in R, SpringerHastie, Tibshirani, and Wainwright (2015), Statistical Learning with Sparsity – The Lasso and Generalizations, CRC Press第1章概述1.统计学统计学是一门科学，应该是以分析数据、解决问题为导向，不断的提出新方法，并探讨其理论性质。2.数据智慧郁彬（2016），数据科学中的数据智慧，《中国计算机学会通讯》（中译稿）将统计学核心部分重新定义为“数据智慧”非常必要，因为它比“应用统计学”这个术语起到更好的概括作用。“数据智慧”是将领域知识、数学和方法论与经验、理解、常识、洞察力以及良好的判断力相结合，思辨性地理解数据并依据数据做决策的一种能力。十个基本问题（1）要回答的问题（2）数据收集（3）数据的含义（4）相关性（5）问题的转化（6）可比性：数据变换（7）可视化（8）随机性：数据的代表性、结果的不确定性（9）稳定性：结果的可解释性、可重复性（10）结果验证第2章线性回归方法2.1 多元线性回归（1）多元线性回归模型及其矩阵表示（2）最小二乘估计及其性质最小方差线性无偏估计(BLUE)（3）变量选择方法前进法、后退法和逐步回归法2.2 压缩方法:岭回归与Lasso 2.2.1 岭回归岭回归最初提出是为了解决回归中的多重共线性问题,也就是不满秩,不是正定矩阵的情形。这时有学者提出给加上一个正常数矩阵kI(k0),那么。其中,k是一个待估参数,需要使用一些方法来决定。1岭估计的性质: ①岭估计是有偏估计,但存在k0使得岭回归的均方误差小于最小二乘估计的均方误差。 ②岭回归的系数估计值的绝对值小于最小二乘估计的绝对值。因此称岭回归为一种压缩估计。　2另一种角度看待岭回归: 现代统计从损失函数加罚的角度看待岭回归,可以证明岭回归等价于在最小二乘估计的基础上对估计值的大小增加一个约束(也叫惩罚,有时也称为正则化)。　注意,这里只对自变量的系数施加了约束,并没有考虑截距项。一般可以通过数据中心化(因变量减去自身均值)消除的作用。上式称为β的岭回归估计,其中,k称为岭参数。k=0时(此时对应t=∞)的岭回归估计就是普通的最小二乘估计。岭参数k不是唯一确定的,所以得到的岭回归估计实际是回归参数β的一个估计族。 2.2.2 Lasso Lasso回归(Tibshirani, 1996)和岭回归类似(但又有着很重要的不同),是另一种压缩估计。与岭回归很重要的不同是,它在参数估计的同时既可以对估计值进行压缩,又可以让一些不重要的变量的估计值恰好为零,从而起到自动进行变量选择的功能。 Lasso回归等价于在最小二乘估计的基础上对估计值的大小增加一个不同于岭回归的约束(惩罚):注意:范数的概念是线性空间中向量长度概念的推广。 2.2.3 一张图看懂岭回归和Lasso回归岭回归和Lasso回归中的参数k或λ称为调节参数,需要估计。实际上不同的调节参数的取值对应不同的模型。因此,可以把调节参数的估计看成模型选择问题。? 2.2.4 从贝叶斯的角度再看岭回归和Lasso回归贝叶斯学派认为模型的参数β也是随机变量,服从一个先验分布,记为。因此,根据贝叶斯公式,可得的后验分布(正比例于先验分布乘以似然函数)为:　对于回归模型,假定误差服从正态分布,由于样本是独立同分布的,因此似然函数为:　我们进一步假定向量的先验分布为高斯分布,如图2—5(a)所示,即,则有　?根据贝叶斯公式,可求得的后验分布为:　对于这个后验分布,我们计算它的众数,即该分布取最大值的点对应的。因为对数