从IB方法角度试谈机器学习与人类学习之关联.docVIP

从IB方法角度试谈机器学习与人类学习之关联.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从IB方法角度试谈机器学习与人类学习之关联

从IB方法的角度试谈机器学习与人类学习之关联   信息是海量的,信息的载体是数据。当我们首次面临海量的信息数据时,在无任何先验知识的情况下,是无法驾驭这些信息的。此时,海量的信息对于我们来说是无形的、不可控的。人们期望将这些无形的信息变成有形,不可控的信息变成可驾驭的,以便更好地理解、认知数据。IB的英文全称是Information Bottleneck,中文直译则是“信息瓶颈”。瓶颈一般是指在整体中的关键限制因素。因此,在我们首次看到“信息瓶颈”一词时,大多数人可能认为该词是贬义的,有信息不对称之嫌。实则不然,IB方法的初衷是将一些无形的信息通过一个“瓶颈”使其变成有形的,从而使我们更好地驾驭这些信息、更好地理解数据。因此,IB方法中的“瓶颈”是褒义的 一、IB方法的压缩认知与人类认知之关联 IB方法通过将数据对象压缩到一个“瓶颈”变量中来学习数据中所蕴含的内在模式,其学习模型如图所示。在图中,变量X代表载有海量信息的大数据,Y是描述数据对象的特征变量,而T则是压缩的“瓶颈”变量。变量X中载有海量的信息,在无任何先验知识的情况下,这些信息对人类来说是不可驾驭的。然而,“瓶颈”变量T的规模远小于X的规模,相对容易被掌控。变量X到T的压缩过程中所产生压缩编码P(t|x)则为IB方法所发现的压缩模式,若一些数据对象被压缩到了同一个t中,这些数据对象则被划分到同一个类中。为使IB方法所得的压缩编码P(t|x)可放映数据中所蕴含的真实类别,IB方法在对大数据进行压缩的同时,还要求“瓶颈”变量T尽可能的最大化保存特征变量Y中所载有的信息量。在对数据进行压缩时,我们不可能平白无故地对数据进行分类,需要依据数据对象自身的特征来对数据进行划分,只有将具有相似特征的数据压缩到同一个类中,所得的压缩模式才具有意义。特征变量Y客观地描述了数据对象,因此IB方法将特征变量Y作为数据压缩的依据 中国古圣先贤老子曾说过:“无名,天地之始。有名,万物之母。”IB方法在将数据对象压缩到“瓶颈”变量的过程有为万物命名之意。当人类还没有给这个世界的事物命名之时,在人类的认知中这个世界里的一切事物本身与自然是浑然一体的,处在一种人类认知意义上的混沌状态中。但一旦我们对事物进行确切的命名之后,即使它们并没有完全与自然脱离其成为整体的状态,但在人类的视角里已有了独立认知的意义,即石头、山、水、河流、花鸟虫鱼、太阳、月亮……人们可以将某一事物从他原来的混沌状态中抽离出来,在人类的世界里建构对它的独特认知。这时候原来的混沌状态似乎就一下子瓦解了,整个世界由无数独立存在的事物井然有序地构成一个统一的整体。由于海量的信息数据对我们来说在一定意义上也是混沌的,因此IB方法的思想与上述思想如出一辙。IB方法从混沌的海量信息中压缩得到的每一个类是对数据的一个总结,是数据中的一些共性特征,是对数据化繁为简的结果,是无形信息的有形化结果。IB方法的压缩分类就如同对万物的命名,人类对万物的命名过程也是一个压缩认知的过程 二、顺序IB算法学习过程与人类学习过程之共性 IB方法通过压缩来认知数据,属于机器学习领域中的一个无监督学习方法。机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。不少机器学习领域专家给出了机器学习的定义。兰利(P. Langley)认为:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。”米切尔(T. M. Mitchell)在其著作《机器学习》中谈到“机器学习”关注的问题是“计算机程序如何随着经验积累自动提高自身的性能”,也就是主要指的归纳学习。机器学习的功能是知识发现,知识发现是通过学习算法实现的。下面结合一个典型的顺序IB算法,来阐述IB方法的压缩认知过程与人类的学习过程之间的关联性 对于计算机来说,信息就是数据,因此IB算法以数据对象作为输入,从中学习有价值的模式。顺序IB算法的主要学习过程为:在某一随机划分的基础上,计算机依次读取每一个数据对象,在IB方法目标函数的指导下将其指派到一个与该数据对象拟合度最强的一个划分中,重复迭代该步骤,直到划分指派不再有新的变换为止 根据米切尔对机器学习的定义,顺序IB算法中的经验便是我们能观测到的数据集。在顺序IB算法的主循环中,依次考虑每一个数据对象的迭代过程便是从经验中不断修复当前所得压缩模式的过程,从而提高自身识别数据的性能,最终达到“物以类聚,人以群分”的目的。试想一下,当我们人类面临着海量的数据时,也需要通过读取每一条数据对象,得到数据中的一些大概划分模式,然后再综合考虑每一个数据对象与当前划分模式之间的匹配程度,对所得的划分模式进行修复。因此顺序IB算法的学习

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档