移动设备的语音识别技术.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
移动设备的语音识别技术

移动设备的语音识别技术 (Speech Recognition techniques for Mobile Devices) Introduction 在过去的十年,通信行业获得了空前的发展。据市场研究报告称2008年大约销售12亿部手机。今天,移动技术已远远超过人与人通信的需求,手机已成为一个移动计算平台。 采用GPRS技术的2.5G网络,可以提供稳定的30 -80Kbps的分组数据业务。同时,采用CDMA2000、WCDMA等技术的3G网络也正在全球普及,其速度更是高达384kbps。 Introduction 与此同时,基于IEEE 802.11协议的无线局域网(WLAN)如Wi-Fi也得到普遍使用。Wi-Fi最高带宽为11 Mbps,在信号较弱或有干扰的情况下,带宽可调整为5.5Mbps、2Mbps和1Mbps,带宽的自动调整,有效地保障了网络的稳定性和可靠性。其主要特性为:速度快,可靠性高,在开放性区域,通讯距离可达305米,在封闭性区域,通讯距离为76米到122米,方便与现有的有线以太网络整合,组网的成本更低。 因此,带有无线网卡的计算机或PDA设备就可以相互通信。进一步,高达11Mbps的通信速度使得基于IP的语音和视频会议的应用成为可能。 Introduction 除了网络技术的迅猛发展以外,客户终端设备也在以同样的速度快速发展。如各大手机厂家生产的智能高端手机,各种先进的PDA设备等。 上述这些硬件设备为手持设备支持更多新的数据服务提供了基础。然而,用户接口仍然限制着移动设备的更广泛的应用。手持设备接口的主要问题就是它们的尺寸太小。在如此小的键盘上操作非常不舒服并容易出错。特别是在移动的时候,如驾驶汽车。 Introduction 很自然地想到解决这个问题的方法就是语音识别技术。语音输入既不需要图形显示也无需与设备直接接触。 在过去的十年里,自动语音识别技术得到极大的重视,基于桌面计算机开发了一系列快速、稳定、有效的语音识别系统。 然而,直接复制桌面应用程序的语音识别算法对性能较低的移动设备来说显然是不合适的。由于移动领域多变的语音环境以及手持设备终端有限的资源,在移动设备上提供语音识别就需要特殊的方法。 Introduction 移动设备语音识别的三种方式: client-based (Embedded Speech Recognition Systems)嵌入式语音识别 server-based (Network Speech Recognition)网络语音识别 client-server (Distributed Speech Recognition)分布式语音识别 Architectures of ASR Systems for Mobile Devices 语音识别系统本质上是一种多维模式识别系统。它与一般的模式识别系统类似, 包括语音预处理、语音特征提取、语音模式库和语音模式匹配等基本单元, 如下图所示 Architectures of ASR Systems for Mobile Devices 自动语音识别(ASR)的基础 ASR系统的目的就是:给定某一语音观察集O= (o1,o2,…,oT),在固定的词汇库中找到最可能的序列W=(w1,w2,…)。根据Bayesian理论,单词序列的最大估计可以由下式求得: W*= Architectures of ASR Systems for Mobile Devices 为了得到输出,语音识别器一般执行下面的步骤: 根据说话方式提取语音观察序列的特征; 计算P(W)— 不考虑语音观察序列,计算每个单词序 列发生的概率; 计算P(O|W)— 基于每一个单词序列计算该观察序列 方式的概率; 找到最大的单词序列。 Architectures of ASR Systems for Mobile Devices P(W)可以由语言模型决定。它可以是基于规则的或者是基于统计的。在后一种情况下,单词序列的概率近似等于数据库中单词出现的频率。从移动ASR的角度看,统计语言模型的最大缺点就是要存储的参数太大,对于大词汇任务来说可能会达到几百M。 P(O|W)多采用基于语言学模型的HMM算法获得。HMM作为语音信号的一种统计模型,在语音处理各个领域有着广泛的应用。 Architectures of ASR Systems for Mobile Devices 移动ASR的困难 与一般的识别系统相比,移动识别系统将遇到一系列的困难: 有限的可用存储空间; 无法保存大型的语言学和语音学模型,这势必导致性能的下降。 8-32K的小容量c

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档