机器人技术第八章机器人感觉技术-422-4摘要.ppt

机器人技术第八章机器人感觉技术-422-4摘要.ppt

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
外部传感器 机器人的听觉——语音识别 语音识别技术——也被称为自动语音识别 Automatic Speech Recognition(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。 预处理 测度估计 输入 语音 识别结果 模板库 特征提取 失真测度 识别 训练 参考模式 语音识别原理图 外部传感器 机器人的听觉——语音识别 语音识别系统实质上是一种模式识别系统,与常规模式识别系统一样包括有特征提取、模式匹配、参考模式库等三个基本单元。 特征提取 输入 语音 识别结果 模式匹配 参考模式库 训练 语音识别系统基本结构 语音识别的关键技术包括语音特征参数提取技术、语音识别算法、模式匹配准则及模型训练技术。 语音识别系统可分为:特定人语音识别系统和非特定人语音识别系统。其中后者大致可以分为语言识别系统,单词识别系统,及数字音(0~9)识别系统。 外部传感器 机器人的听觉——语音识别 第二步是语音识别的核心,采用选择的语音识别方法进行模式匹配。语音识别核心部分又分别表现为模型的建立、训练和识别三个部分。 第三步,语音识别可以进行后处理,后处理通常是一个音字转换过程,还有可能包括更高层次的词法、句法和文法处理,另外也有可能作为某个具体的任务语法的输入。 第一步是根据识别系统的类型选择一种识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,这些参数作为标准模式由机器存储起来,形成参考模式库。 语音识别的步骤分为三步 外部传感器 机器人的听觉——语音识别 50年代,基于元音共振峰、语音波形频谱和谱序列信息的语音识别。 1952年,ATT贝尔实验室成功开发了了世界上第一个语音识别系统Audry系统,可以识别10个英文数字发音。 1956年,在RCA实验室研制了可以识别一个说话人的10个单音节的系统。 1959年,英国的Fry和Denes研制了能够识别4个元音和9个辅音的识别器,采用了谱分析仪和模式匹配器。 60年代,计算机技术推动了语音识别技术的发展,语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出。 这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统,有效的解决了语音信号的特征提取和不等长匹配问题。 外部传感器 机器人的听觉——语音识别 70年代,伴随着自然语言理解的研究以及微电子技术的发展,语音识别领域取得了突破性进展。 这一时期的语音识别方法基本上是采用传统的模式识别策略,研究多集中于非特定人语音识别的实验。同时,这个时期还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 80年代,是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用,使语音识别研究进一步走向深入。 终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。 HMM模型的广泛应用应归功于ATTBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。 外部传感器 机器人的听觉——语音识别 90年代,语音识别技从实验室走向实用,在应用及商品化开发方面取得巨大进展 。 许多著名的大公司如IBM、苹果、ATT和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM公司推出的ViaVoice和Dragon System公司的Naturally Speaking, Nuance公司的Nuance Voice Platform语音平台,Microsoft 的Whisper 和Sun的Voice Tone等 其中,IBM公司推出的嵌入式ViaVoice系统标志着非特定人、大词汇量连续语音识别的实用化,也是目前市场上的主流产品,其平均识别率可以达到95%。 duzj01@hit.edu.cn 8.4 多传感器信息融合 多传感器融合 多传感器信息融合 多传感与单传感的比较: (1)多传感器数据融合系统可更大程度获取被探测目标和环境的信息量。单传感器信号处理或低层次的数据处理方式只是对人脑信息处理的一种低水平模仿。 (2)增强了系统的生存能力和可靠性:在有若干传感器不能利用或受到干扰时,总还会有一部分传感器可以提供信息,使系统能够不受干扰连续运行、弱化故障、增加监测概率。 (3)增加测量空间的维数和可信度:扩展空间、时间的覆盖范围、改

文档评论(0)

文档资料 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档