网站大量收购独家精品文档,联系QQ:2885784924

基于视频的人机交互技术.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于视频的人机交互技术.doc

基于视频的人机交互技术 ——夏进 041020421 1510301班 人机交互(Human-Computer Interaction)主要研究人、计算机以及彼此之间互相影响的技术。视觉语言(包括手势和面部表情)作为一种自然的人与人信息交互的辅助方式,具有所见即所得、自然方便等优点,因此在当今社会智能人机交互越来越受到关注。有兴趣的可以尝试国外的camgoo和国内的3D大鱼吃小鱼游戏。 人机交互概述 随着计算机硬件与软件技术的发展,人机交互技术由传统的鼠标键盘时代发展到了以语音输入、动作识别等为代表的自然交互时代,特别是视觉计算技术的出现,使计算机获得了初步视觉感知的能力,能“看懂”用户的动作。其中手势识别作为一种直观的、自然的输入方式,把人们从传统接触性的输入装置中解放出来,可以以一种更自然的方式与计算机交互,使计算机操作更加简单易用。 基于视觉的手势识别技术基础 基于视觉的手势识别系统的总体构成如图2所示。首先,通过摄像机获取视频数据流。接着,系统根据手势输入的交互模型检测数据流里是否有手势出现并把该手势从视频信号中提取出来。然后根据手势模型进行手势分析,包括特征检测和模型参数估计。再根据模型参数对手势进行分类并根据需要生成手势描述。 最后,系统根据生成的描述去驱动具体应用。 图2连续动态手势识别系统组图 2.1 手势建模 要实现自然的人机交互,必须建立一个精细有效的手势模型,使得识别系统能够对用户所做的绝大多数手势作出正确的反应。几乎所有的手势建模方法都可以归结为两大类:基于表观的手势建模和基于3D模型的手势建模。 手势模型分类 2.2 手势分割 手势分割属于图像分割的范畴,而图像分割是依据图像的灰度、颜色或几何性质将图像中具有特殊含义的不同区域分开来,这些区域是互不相交的,每一个区域都满足特定区域的一致性。分割出来的区域应该同时满足: 分割出来的图像区域的均匀性和连通性。 相邻分割区域之间针对选定的某种差异显著性。 (3) 分割区域边界应该规整,同时保证边缘的空间定位精度。 静态手势分割主要有基于阈值、基于区域、基于边缘检测等方法。动态手势分割则有差分图象法、时间差分法、光流法。 2.3 手势分析 手势分析就是要估计选定的手势模型的参数。分析阶段一般由特征检测和特征参数估计两个串行任务组成。在特征检测的过程中,必须首先定位手势,根据所用线索的不同,可以将定位技术分为基于颜色定位、基于运动定位、以及多模式定位等三种。 2.4 手势识别 手势识别就是把模型参数空间里的轨迹(或点)分类到该空间里某个子集的过程。静态手势,静态手势识别算法包括基于经典参数聚类技术的识别和基于非线性聚类技术的识别,对应着模型参数空间里一个点,而动态手势则对应着模型参数空间里的一条轨迹,因此它们的识别方法有所不同。 静态手势识别主要有以下两种方法: (1)几何特征识别法,根据从手势图像中提取的几何特征来对手势进行识别和分类。它的特点是识别速度快,算法简单,相应的缺点就是识别精度有待改善,鲁棒性有待增强。 (2)神经网络法,它是由许多具有非线性映射能力的神经元组成的大规模并行处理网络。能实现复杂的非线性映射,映射关系是通过学习(训练)得到的,其中常见的是BP神经网络。 动态手势涉及时间及空间上下文,绝大多数动态手势被建模为参数空间里的一条轨迹。考虑到对时间轴的不同处理,现有的动态手势识别技术可以分归三类:基于隐马尔可夫模型(HMM)的识别,基于动态时间规整(DTW)的识别,基于压缩时间轴的识别。基于HMM识别技术的优点包括提供了了时间尺度不变性,保持了概率框架,具有自动分割和分类能力。基于DTW方法的优点是概念简单,比较有效,在测试模式和参考模式之间允许充分的弹性,可实现正确的分类。 3.1 系统总体设计 整体设计如下图3.1所示: 图3.1 基于视频的人机交互系统设计流程图 3.2 图像获取及预处理 图像在采集和传输过程中会受到各种噪声的干扰和影响,使得图像质量下降,同时在有原始图像转换成数字图像时,也不可避免会出现失真。图像预处理的目的就是去除图像中的噪声,加强图像中的有用信息,同时能对输入方式或其它原因造成的图像退化进行还原。 3.2.1图像灰度化处理 由视频采集得到的手势图像一般为彩色图,包含大量的信息,如果对其直接进行处理,会大大地影响识别速度,不满足人机交互实时性的要求。为加快识别速度,减小处理时间,必须压缩信息量。图像的灰度化处理可以在不影响识别准确性的前提下,保留有用信息,去除无用信息,将彩色图像转换成灰度图,减小计算量。由于减少的只是颜色信息,对图像

文档评论(0)

000 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档