机器学习及数据挖掘-大眼睛实验室.pptVIP

下载本文档

21
0
约4.15千字
约 21页
2018-12-27 发布于浙江
举报
版权申诉

机器学习及数据挖掘-大眼睛实验室.ppt

1、本文档共21页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Machine Learning and Data Mining 2009 中国科学院自动化研究所中国科学院自动化研究所 Machine Learning and Data Mining 2009 机器学习的困惑与历史的启示王珏第九届机器学习及其应用研讨会 2011年11月，清华大学自然模型 [采样] 样本集模型 [算法] [交叉验证] 假设iid 统计机器学习的麻烦？？？？？ [设计实验] 问题：模型是自然模型吗？统计机器学习如果数据不充分，在大变量集合下，如何设计实验，获得新数据。统计机器学习的困难：实验设计存在组合问题。iid成为与自然模型无关的假设！特殊函数的逼近社会的需求生物、网络、金融、经济和安全等众多领域，大变量集合的海量数据不断涌出，社会迫切需要分析与处理这些数据的有效理论、方法与技术。寻找分析与处理大变量集合海量数据的新理念、理论、方法与技术成为当前迫切的任务。历史的故事线性感知机基于最小二乘的Rosenblatt的感知机(1956)，其本质是多变量空间上的平均(回归)。 1902年，James的神经元相互连接 1943年，McCulloch和Pitts的神经元工作方式 1949年，Hebb的学习律。贡献是：多变量回归的计算方法(神经网络)。基函数： L = ?1D + ?2I + ?3G + ?4S 设计算法，确定?，获得模型疑问是：只能解决线性问题，不能满足实际的需要。埋下被批评的口实。 20世纪70年代面临的选择统计优化(平均)：线性感知机统计模式识别复杂信息系统(结构)：专家系统句法模式识别选择非线性问题计算效率专家系统合理复杂问题求解实现智能系统的理想 Duda and Hart[73] 从Bayes判别(分类)，引入损失函数，变为正则化问题 If [D=0]?[G=A] then[L=0] If [I=0]?[G=A] then[L=0] If [D=1]?[I=1]?[G=A] then [L=1] AI 1969年，M.Minsky发表颠覆性的报告， “Perceptron”。表象是以XOR问题向以平均为基础的感知机发难，本质是试图以结构方法代替平均。全书使用拓扑作为工具。 1956年，以复杂信息处理为契机，提出AI。其动机有二：其一，发展处理符号的方法，其二，处理非线性问题。过分强调独立性，使得描述任何一个问题，需要穷举出所有可能。80年代，耗资巨大的CYC“失败”了。需要统计方法成为共识。 20世纪80年代面临的选择概率图模型(Bayes学派): Markov随机场 Bayes网人工神经网络(频率学派): BP 统计机器学习选择结构学习的困难先验的结构先验概率分布推断是NPC 字符识别，网络数据建模误差界指导算法设计算法基于线性感知机无需先验知识，无推断考虑泛化为核心 Gibbs[1902], Wright[1935] Clifford[1971] Pearl[1988，89] 统计机器学习 1991年，Vapnik借用在AI中的PAC，给出基于iid的误差界，基于PAC的统计开始成为主流 1986年， Remulhart发表PDP报告，包含非线性BP算法，解决XOR,逼近非线性函数。学术价值不大，人们开始重新尝试“平均”方法。从ANN到SML，发展得力于对字符识别的成功神经网络?基于PAC的机器学习?基于统计学的机器学习贡献: (1)基于iid的误差界指导算法设计，(2)算法设计返回感知机，线性算法，寻找线性空间(核映射)。基于PAC理论，误差界以1-?概率成立。这个参数在泛化意义下的解释：理想，?应该趋于0，但是，误差界将趋于无穷，成为平凡界。新世纪开始，统计学家加入SML，完全放弃PAC(Hastie)。维数灾难高维空间上的统计理论，多重积分是麻烦，补充“合适”样本是麻烦。“同分布”只能停留在假设上，无法实施。在高维空间(成百上千)建模，最大的危险就是空间大的程度使得再多的样本，在这个空间上也是稀疏的。由于困难具有本质性，平均遇到大麻烦！概率图模型将平均放在局部，避免了维数灾问题，同时保证了泛化和模型的可解释性，关键是结构，将局部的平均构造起来。基于平均的研究已经过去20余年，2009年，Koller出版巨著(近1200页)，概率图模型。结构(全局) + 平均(局部) 将问题考虑为求解Bayes问题一、表示二、推断三、学习概率