- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
手语识别技术
手 语 翻 译 技 术 四 川 大 学 谢 澎 涛
1. 手语翻译模块
手语翻译是本发明的核心功能。关键技术包括手的分割,特征提取,隐马尔可夫模型训练,和基于隐
马尔可夫模型的实时识别。技术架构见下图
将手从背景中提取出来是整个手势识别链的第一环,是后续工作的前提与基础。手的分割必须快速、
准确并且在整个视频流中保持一致性。将手从背景中分割出来之后,需要对其进行特征提取。提取的特征
必须能够很好的描述手的状态,同时具备较低的算法复杂性。基于隐马尔可夫模型进行实时手语翻译的前
提是为每个手语词语建立隐马尔可夫模型,并对其进行训练,这项工作由隐马尔可夫模型训练来完成。训
练的样本数据是对手语视频的每一帧图片进行手的分割、特征提取之后形成的特征向量集。实时识别的数
据来源是实时视频传送过来的图片经手的分割、特征提取之后形成的特征向量流。因此,训练和识别两个
过程都需要用到手的分割和特征提取技术,对视频进行预处理。
1.1手的分割
人的肤色以饱和度较低的红色调为主,而且这种特征对于不同的人、不同的光照条件具有良好的一致
性,在大多数情况下可以与背景很好的区分开。因此选取肤色作为人手分割的主要依据。采用一种称作
CP(ColorPredicate)的数据结构进行肤色鉴别。CP可以视为一种新定义的颜色空间,是一个三维的坐标系。
X轴代表色调H(Hue),Y轴代表饱和度S(Saturation),Z轴采取一种二值逻辑,表征对应于该色调和饱和
度的像素点是否是肤色点。首先通过交互式训练的方式对CP进行构建,然后用CP去处理一幅未知图片,
区分背景点与肤色点。
手 语 翻 译 技 术 四 川 大 学 谢 澎 涛
获取若干幅包含人手的图片,然后采用人工标注的方法,对手和背景进行区分。用图像处理软件
PHOTOSHOP将手的区域标注为黑色,将背景区域标注为白色。这样,一幅原始图片和与其相对应的处理
之后的图片形成一组训练样本。
训练算法:
首先构造一个1000乘1000的二维数组CP,每一个数组元素初始化为0。
对于每一组训练样本,首先将原始图片从RGB颜色空间转换为HSI颜色空间。去除I分量,只保留H
和S分量。在图片中H和S的值为0-1之间的数,为便于处理,我们给H和S乘以1000,形成新的H和S。
对于属于手的每一个像素点(即人工标注为黑色的点),获取其H和S分量,然后用(H,S)点对去检索先前
构造的二维数组,数组元素的值加1。例如,手内有一个像素点的H值为245,S值为124,则CP[245][124]=
CP[245][124]+1;
对于属于背景的每一个像素点(即人工标注为白色的点),获取其H和S分量,然后用(H,S)点对去检
索先前构造的二维数组,数组元素的值减1。例如,背景中有一个像素点的H值为567,S值为234,则
CP[567][234]= CP[567][234]-1;
处理完训练样本图片中所有的点,则一个CP就构造好了。
CP人手分割算法:
对于每一幅待分割的图片,首先将其颜色空间由RGB转换为HIS。同样,为便于处理,所有的H和S
扩大1000倍。
对于图片中的每一个像素点,获取其H和S的值,用H和S去检索CP,若CP[H][S]0,则该像素属于
手;若CP[H][S]0,则该像素属于背景。
1.2去除背景噪声
采用CP方法对手的肤色点进行提取时,无可避免的会产生来自背景的噪声。背景中的非肤色点的色
调与饱和度对应于CP中的z值很有可能是大于0的,导致系统将非肤色点判断为肤色点。
去除背景噪声的一个有效方法是求取最大连通区域。一幅原始图片经 CP处理过后,系统判定为肤色
的像素点会被标记为白色。这些白色的像素点会形成一个个连通区域,而最大的连通区域一定对应于手。
因此,只保留最大连通区域中的像素点,滤除不属于最大连通区域的白色像素点就能达到去除噪声的目的。
1.3特征提取
将手从背景中分割出来之后,需要对其进行特征提取。提取的特征必须能够很好的描述手的状态,同
时具备较低的算法复杂性。基于上述两个标准,我们选择位置、形状、大小、角度四个特征。
位置
用手的质心来描述手的位置。
经过“手的分割”处理之后,得到二值图像。在此二值图像的基础上,采用下面的公式计算手的质心:
手 语 翻 译 技 术
文档评论(0)