- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(自freemind)GRE和机器学习
(转发自free mind)GRE和机器学习 2011-07-21 23:59 | (分类:默认分类)
其实是在之前复习 GRE 的时候突然想到的一些好玩的事情,只是一直没有时间写出来,今天圣诞节,决定抽空把它写了。先祝大家圣诞快乐!
但凡是考过 GRE 的同学都知道,复习过程是很痛苦的。不过现在是信息时代,找资料确实很方便,除了各种复习材料之外,网上也不乏各种复习方法总结建议之类的,其中甚至还有帮你把每天的复习细节都具体安排好了的。当然其中也有许多很好的建议和经验,但是无论如何还是自己才知道什么方法适合自己啊。所以闲暇的时候我自己也在想,这个过程究竟是怎么一回事,后来越来越觉得和机器学习其实有相当多的地方。
最典型的就是类比反义了,GRE 里的类比就是给一个词对,让你分析出这两个词之间的关系,然后类比这个关系,在 5 个选项里找出同样关系的词对;反义则要简单得多,就是给一个词,找到它的反义词。其实是很简单的问题,我曾经尝试了一下,如果看着翻译过来的中文做题的话,错误率可以很小,所以最大的瓶颈其实就在词汇量了,词汇也应该是 GRE 笔试复习过程中最大的坎。一般复习方法分为两种,一种是被红宝书,或者其他各种“宝书”,甚至还有看字典的,另外一种则是突击看诸如“猴哥类反”之类的往年题目的正确答案列表,以及最近几年的机经之类的。
这两种方法就正好和机器学习里的两种方法对应起来了——“Generative Model”(生成模型)和“Discrimative Model”(判别模型)。背红宝的方法,可以看作是生成模型,它学习的结果是知道每个词的意思,这样一来,就可以以不变应万变了,因为词的意思一旦知道之后,各种问题都会变得很容易,比如类比反义,虽然也会有个别歧义的情况,但是大部分时候,一旦你知道了单词的意思,要选正确答案就变得非常容易了。在机器学习里生成模型的一个典型例子就是进行概率密度估计,也就是说,我要从所给定的数据中学习出什么规律来的话,就先去估计出生成这个数据的本征概率模型,一旦这个模型知道了,其他的问题就都迎刃而解了。比如,对于分类,其实只要比较两个类别生成该数据的模型,选择概率最大的一个即可,而回归问题则可以通过对条件概率求期望而得到。所以,生成模型,一旦成功估计出了正确(或者接近正确)的模型,将会非常强大。然而,在实际中,除非数据非常稠密,资源非常丰富(某些模型需要占用相当多的计算和存储资源),经常会得不到满意的结果。
另一方面,判别模型就不像生成模型那样野心勃勃了,要做分类就做分类,它只关心怎么把手头这个分类问题做好,而完全无视你的数据是如何生成的,以及模型是否能够处理其他更多的问题。例如,对于二分类问题,生成模型可能要去估计两个概率模型的期望和协方差矩阵等一大堆参数(例如,如果 n是数据维度的话,参数个数通常是在 O(n2)这个数量级的,如果是非参数方法,则更多了),而生成模型只要估计出一个分隔超平面就可以了(通常参数就在 O(n)这个数量级) 。所以,就和背“猴哥类反”之类的资料一样,如果我的目的单纯就是为了做类反,那么我就没有必要费力去背红宝那样把每个单词的各个意思搞清楚——特别是在时间和精力不允许将红宝背熟的情况下。也就是说,如果当前的条件限制比较大(例如数据不充足),强行进行生成模型的估计,可能会得到一个比较差的模型,往往就不如专用的鉴别模型。例如对于那些单词,我只要知道它经常和哪些词搭配出现组成类比反义,就足以应付类反题了。
当然,鉴别模型的缺点就是局限性,针对这个问题学习出来的模型,基本没法用来处理其他的问题。这在机器学习中通常不是太大的问题,不过对于我们日常学习来说,就是一个需要权衡的问题了。至少我是不希望费那么多力背单词的结果只是为了做那么几道类反,之后就毫无用处了。总之,这是一个和资源和目的都有关系的权衡问题。
除了权衡之外,学习方法的选取还有其他问题需要考虑,这实际上不止限于 GRE 的复习了,关于我们教育中的学习问题,怎么样的学习方法才是行之有效的,我猜这个是不是“教育学”所研究的一个重要部分。当然,研究人的学习问题要困难许多,因为但凡和人打交道,都会有许多的不确定因素,然而在机器学习中则没有这些问题——当然,这个问题仍然是非常困难的。具体来说,在机器学习中,有一个子领域叫做 Learning Theory (学习理论),就专门研究这些问题,有一个很牛会议叫做 Conference on Learning Theory (COLT) ,顾名思义啦。简单地来说,给定一个学习算法,它到底是不是合理,这个问题是需要证明的。
比如,上太傻或者 GTer 或者甚至校内上,都可以看到一大堆经验贴、总结贴、建议贴、方法贴之类的,甚至很多还互相矛盾,那么应该相信哪个呢?通常比较可信的可能是某个比较“权威”的人发的
文档评论(0)