多模态信息处理.pdfVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多模态信息处理

多模态信息处理研究进展、现状及趋势 1. 任务定义、目标和研究意义 多模态(multimodality)的概念起源于计算机人机交互领域信息表示方式的 研究,其中术语“模态”一词被定义为在特定物理媒介上信息的表示及交换方式。 在研究中人们发现,用语言、视频、音频等媒体指称来描述信息表示方式过于宽 泛、粒度太大,不足以区分实际采用的表示方式,为此引入了比媒体(或媒介) 更细粒度的“模态”概念。而多媒体媒介可以分解为多个单模态,如视频作为一 种多媒体媒介,可以分解为动态图像、动态语音、动态文本等多个单模态。为了 模态概念定义的科学性和实用性,单模态的分类必须满足完整性、正交性、关联 性和直观性的要求。在同一事物上多类单模态信息共生或共现的现象是十分普遍 的。人与人交谈时有声语音与文字文本是共生的;互联网网页中图片与其对应的 解说文字是共现的,凡此等等。共生或共现的多种单模态信息的统称即所谓的多 模态信息。融合多种单模态的信息处理即所谓的多模态信息处理,其中涉及对多 模态信息的获取、组织、分析、检索、理解、创建等。 多模态信息处理技术主要应用于对象识别、信息检索、人机对话等与智能系 统及人工智能相关的领域。大量研究成果显示,基于多模态理念的信息处理算法 和方法,往往会得到比传统方法更好的性能和效果。例如,语义计算相关领域基 于指称语义的研究发现,采用语言表达式的视觉指称(即一组图片)来定义指称 相似性度量,在某些语义推导任务中,效果好于基于纯文本的分布式语义表示; 情感计算领域相关研究发现,不同模态的数据在情感表达中具有互补性,在愉悦 度表达方面文本模态优于音频模态,而在激活度表达方面音频模态则优于文本模 态。在基于内容的多媒体信息检索领域,针对基于内容的视音频检索中的语义鸿 沟问题,利用与视音频数据共生或共现的文本信息,进行多模态的语义分析和相 似性度量,是克服语义鸿沟问题的一种十分有效的方法。以媒体为单位的跨媒体 信息处理任务,普遍存在语义鸿沟问题,所处理信息对象的语义,无论是基于外 延语义 (指称语义)还是内涵语义(关联语义)概念,在单一媒体信息范围内得 不到完整或最终表达,而多模态信息处理方法为该问题的解决提供了新的思路和 方法。 2. 研究内容和关键科学问题 多模态信息处理是在文本、图像、音频等现有单媒体信息处理的基础上发展 起来的,现有单媒体数据的处理方法是多模态数据处理的基础。例如在特征提取 层面,针对文本、图像、音频等单模态数据,往往直接利用成熟的文本、图像、 音频特征提取方法来实现。多模态信息处理特有的研究内容主要关注于多模态信 息的建模、获取、融合、语义度量、分析、检索等方面。 2.1 多模态信息建模 如何科学、严谨的定义单模态信息,是多模态信息建模要解决的问题。由于 用媒体方式界定人机交互方式粒度太大,从而引入了模态的概念。所谓多模态信 息建模,就是要构建一个单模态的分类体系,在该分类体系中,各单模态类别之 间满足完整性、正交性、关联性和直观性的要求。Niels Ole Bernsen 2008 年基 于前人的工作,在“多模态理论(Multimodality Theory)”一文中给出了一个满 足这些要求的单模态的分类体系,如表1 所示。 表1 一个输入/输出模态的分类 顶层 通用层 原子层 亚原子层 1 静态拟真图形元素 2 静-动态拟真声音元素 3 静-动态拟真触觉元素 4 动态拟真图形 4a.静动手势话语 4b.静动手势关键字 4c.静动手势符号 5 静态非拟真图形 5a.书面文本 5a1.打印文本 5a2.手写文本 5b.书面关键字

文档评论(0)

zhengshumian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档