使用ViSOM进行数据可视化和多方映射.docx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
使用ViSOM进行数据可视化和多方映射

使用ViSOM进行数据可视化和多方映射Hujun Yin摘要自组织映射(SOM)已成功被用作降维和数据可视化的非参数方法。然而,对于可视化SOM需要一个配色方案记录神经元之间的距离,从而使集群和边界可以看出,尽管集群的数据和结构的分布并没有完全地描绘在映射上。最近一个扩展的SOM中,称为可视化诱导的SOM(ViSOM)已经提出利用拓扑直接保存的距离信息在映射上。ViSOM约束神经元之间的横向收缩力,从而规定神经元间保持距离,使得在所述数据空间的神经元之间的距离是成比例的映射中的距离。本文的研究表明,它产生一个平滑渐变网格数据中的空间和捕获数据的非线性流形。ViSOM与主曲线/面之间的关系已经被分析。ViSOM代表一个独立的主曲线或曲面,是一个自然算法获得主曲线/面。还提供关于应用ViSOM约束并设置分辨率参数的指引,包括实验结果以及SOM,萨蒙映射和主曲线方法的比较。关键词:多维尺度,主要曲线和曲面,多元数据可视化,自组织映射,降维1.介绍对于一个有意义的理解和非线性多元数据可视化的需求从来就不是较高,在许多组织中操作数据和实验结果正在以惊人的速率积累。寻找一个合适的数据的投影方法一直是多元数据分析和模式识别的一个整体目标。这种方法应该使我们能够观察和检测的基础数据分布,形态和结构。良好的数据分析工具和方法将不仅使数据理解更深入,也揭示了潜在的功能。大量的努力一直致力于这方面的研究,一些有用的方法已经被提出,因此适用于各种应用。经典投影方法包括线性主成分分析(PCA)和多维缩放(MDS)。PCA的项目将数据放置到其主要方向上(通常是第一个或前两个,或任何两个“有趣”的组件)。主要方向是由主要的正交特征向量代表的协方差矩阵的数据表示。它是在最小均方误差的检测原始数据点意义上的最有线性规划,是规划点所在的主要的子空间。传统的方法解决特征向量的问题涉及到数值方法。虽然相当高效和稳定,但通常具有不适应性并且往往需要对整个数据集进行呈现。几个Hebbian型学习算法和神经网络已经提出了用于执行PCA的方法。例如,本子空间网络(Oja,1989),广义Hebbian算法(Sanger,1991),以及Rubner和Tavan网络(1989)。但PCA的线性度限制了其处理实际数据的能力,因为它无法捕捉的定义在比二阶统计量更高的非线性关系。如果输入维度比二维要高得多,那么在投影到一个线性平面将提供有限的可视化能力。原则上,扩展到非线性实际问题,PCA能解决得更好。然而,没有一个单一的独特的方法解决非线性PCA(Malthouse,1998)。很多方法已被提出,例如自联想网络(Kramer,1991),广义PCA(Karhunen Joutsensalo,1995),内核PCA (Sch?lkopf,Smola,Müller,1998),以及主曲线和曲面(Hastie Stuetzle,1989;LeBlanc Tibshirani,1994)。其他映射方法,包括最近提出的领域,基于分组和平均的几何方法(Tenenbaum,de Silva, Saul,2000)和局部线性嵌入(Roweis Saul,2000)。MDS尝试将项目数据指向到一个二维(2D)区域通过保持尽可能接近的点间的度量。它一般是非线性的,可以揭示的整体数据的结构,但不能提供底层映射功能。Sammon(1969)映射是一种众所周知的MDS例子。Sammon映射的目标是在原始空间以及在该距离投影平面上尽量减少内部点之间的差异。投影数据从一个不可见的高维空间到低维空间可以揭示数据结构和簇的倾向。Sammon映射已被证明是对数据结构的有用分析(例如Sammon,1969;Ripley,1996)。然而,像其他的MDS方法,Sammon算法是一种点对点映射,它并没有提供明确的映射功能,无法容纳新的数据点(Sammon,1969;Mao Jain,1995)。对于额外的数据,映射不得不基于所有数据点重新计算。这证明对于许多数据持续到达的实际应用是困难甚至是不可能的,因为数据量巨大或者数据的存储空间有限。神经网络提供了另一种方法来非线性数据分析。他们是受生物启发的学习和映射方法,可以从样本中学习复杂的非线性关系。Mao和Jain(1995)已发出关于这个问题的概述。Kohonen的自组织映射(SOM)是一个反应神经感觉和大脑皮层之间的映射关系的数学模型(Kohonen,1982,1995)。由于映射是常排列成在一个低维网格,输入往往从高维空间中得到,SOM被用作一个可视化降维工具(例如Ultsch,1993;Kraaijveld,Mao, Jain,1995)。SOM的最大特性是它的拓扑结构保存,例如在输入空间上的接近点被映射到附近神经元中的映射空间。这样的属性可以用来将相对或

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档