- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习面临挑战_张长水.pdf
中国科学: 信息科学 2013 年 第43 卷 第12 期: 1612–1623
评 述 中国科学院学部 科学与技术前沿论坛 信号与信息处理专刊
机器学习面临的挑战
张长水
清华大学自动化系, 智能科学与技术国家重点实验室, 清华信息科学与技术国家实验室 (筹), 北京 100084
E-mail: zcs@
收稿日期: 2013–06–20; 接受日期: 2013–11–13
国家重点基础研究发展计划(批准号: 2013CB329503) 和国家自然科学基金 (批准号: 资助项目
摘要 该文讨论了机器学习目前面临的几个挑战, 包括: 高维特征空间和数据量问题, 大数据量的
计算困难, 寻求最优解的困难和可解释性差等问题. 然后针对当前很多人关心的几个重要问题, 例如
大数据问题, 深度学习, 概率图模型等做了分析, 以引起深入思考.
关键词 机器学习 深度学习 概率图模型 大数据 优化问题
引言
过去的二十多年的时间里 机器学习的研究得到了快速发展 取得了一系列令人瞩目的研究成果
同时也面临很多的挑战 我们需要对机器学习的现状和面临的挑战进行探讨和梳理 以引起更深入的
思考
机器学习面临的挑战
虽然机器学习取得了令人瞩目的成果 但是仍然面临很多困难和问题 下面列举其中的一些问题
高维特征空间与样本数的不足
在很多实际应用问题中 得到的特征维数是比较高的 有的甚至是非常高的 例如 在图像识别中
如果提取 特征 特征维数是 维 如果提取其他特征 维数也往往是几十维 或者几百维 还
有 在文本分类问题中 如果把每一个单词当作一个特征 特征的维数可能是几千维 或者上万维 这
依赖于所使用的字典大小
下面以概率密度函数的估计为例讨论特征维数和所需要的样本之间的关系 对于一维的概率密度
函数估计来说 通常在具有几十个以上的样本时可以得到一个比较好的函数估计 这是因为在每一个
点附近应该有一定量的样本也就是说 数据要具有一定的密度 才能得到好的估计结果 我们假设至
少需要 个样本 这是一个保守的数字 如果要估计的是一个二维概率密度函数 就需要把二维空间
等分成一些小网格 需要每一个小网格中有足够多的样本 因此 可能需要 个样本 当维数
增加的时候 空间中小的格子的数量随维数的增加而指数上升 假设维数为 需要的样本数是
引用格式 张长水 机器学习面临的挑战 中国科学 信息科学
中国科学: 信息科学 第 43 卷 第 12 期
按照这种方法计算 在图像识别问题中 至少需要 个样本 而在文本分类中 需要 个以上
的样本 可我们知道 这是不可能的一件事情
由于样本数不足导致了高维数据学习的困难 这个现象被称作 维数灾难 维数灾难的核心问题
是 高维函数实事上远比低维函数复杂 而我们对其还没有有效的方法进行分析
利用具体分类问题的先验知识 或者利用得到的训练数据 可能在一定程度上减少维数灾难带来
的困难 例如 如果知道两组特征 和 之间是独立的 那么就有
因此 对于 的估计就可以通过分别对 和 估计来完成 由于单独的 或 的维数要小
于它们联合在一起的 的维数 因此 所需要的样本数就会少很多 概率图模型 研究的就是如
何利用随机变量之间的条件独立性对问题建模、学习、推理的理论、算法和应用 概率图模型在解决
高维样本学习方面有很多贡献
另外 对实际问题中的数据分析表明 大量的实际问题的高维数据实际上嵌入在一
文档评论(0)