9第九章 嵌入式语音识别系统.ppt

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
9第九章 嵌入式语音识别系统

嵌入式语音识别系统 洪青阳博士 厦门大学人工智能研究所 2009 主要内容 嵌入式系统 语音压缩编码 语音识别模块 典型应用—语音玩具 典型应用—语音家电 嵌入式系统 嵌入式就是将一个东西,嵌入到另一个中间,这包含两层意思: 一个是硬件的嵌入式:将一个硬件嵌入到另一个中间,使得原本没有智能的产品变得智能; 一个是软件的嵌入式:将一个软件嵌入带另外一个软件里面,一般这个软件是一个应用软件,而对象是操作系统。 因此,很多东西都会被称为嵌入式,而不仅仅是ARM等32位平台,还包括DSP,FPGA,51,甚至4位机都是可以的。 嵌入式平台 Sunplus(16bit):凌阳SPCE061A ARM(32bit) DSP(TI、AD) 用单片机处理语音 具有语音功能的电子产品 专用语音芯片 音质好 语音播放长度、段数等都受到限制 价格较高 利用单片机实现语音功能 音质由AD、DA精度、压缩算法等决定 语音录放长度由存储空间决定 价格有优势 用单片机处理语音 单片机实现语音功能的条件 硬件要求 AD输入用于录音、语音识别等 DA输出用于放音 定时器/计数器用于控制采样频率 软件要求 语音编解码算法支持 SPCE061A用于语音处理 SPCE061A单片机的性能适合数字语音处理 10位ADC和10位DAC 内置MIC放大器和自动增益功能 2个16位定时/计数器 CPU时钟最高达49MHz,16位乘法器和内积运算,有能力执行复杂压缩算法 SPCE061A实现语音识别 硬件条件 专用MIC接口,用于实现语音录制 16位定时器/计数器用于控制采样频率 最高49MHz时钟频率,内置硬件乘法器和内积运算,保证识别算法的运行 软件条件 提供语音识别函数库,只需几条语句即可实现语音识别功能 语音压缩编码 波形编码 直接将波形信号转变为数字代码,尽量真实地还原波形 声音质量好 压缩比低,码率通常在20Kb/s以上 适用于高保真音乐及语音场合 语音压缩编码 参数编码 提取语音信号的特征参数进行编码,尽量保持语音信号的可懂性,而还原后的波形可能与原波形差别很大。 压缩比很高,码率可达2.4kb/s以下。 语音质量较差,自然度低 对环境噪声敏感 语音压缩编码 混合编码 将参数编码和波形编码技术结合起来,克服了两种编码的缺点。 压缩比高,码率为4~16Kb/s 音质介于参数编码和波形编码之间 凌阳语音压缩算法 对于波形编码、参数编码和混合编码,凌阳都开发了相应的压缩算法。 属于波形编码的有A2000、A1600等 属于参数编码的有S240、S200等 属于混合编码的有S480、S530等 语音识别模块 电路板模块 技术参数 工作电压(CPU) VDD 为 2.4V ~5.5VDC; CPU 时钟:0.32MHz~49.152MHz; 内置 32K 闪存ROM,可扩展2M, 4M, 或8M byte FLASH;? 低功耗休眠时耗电仅为 2μA@3.6V; 音频压缩率: 歌曲:16Kbit/s、20Kbit/s、24Kbit/s 答句:4.8Kbit/s、7.2Kbit/s 答句:2.4K b/s 基本原理 预处理,语音信号数字化。 特征提取,抽取反应语音本质的特征参数,形成特征矢量序列。 语音模型库,从一个或多个讲话者多次重复讲话中提取的语音参数模板。 模式匹配,把输入语音的特征参数与语音模型库进行比较分析,得到识别结果 分类 根据对说话人的依赖程度,分为: 特定人语音识别(SD) 只能辨认特定使用者的语音,训练-使用 非特定人语音识别(SI) 可辨认任何人的语音,无须训练 根据对说话方式的要求,分为: 孤立词识别 每次识别的单词之间要有停顿 连续语音识别 使用者以正常语速说话,即可识别其中的单词 特定人语音识别程序流程 特定人语音识别程序示例 非特定人语音识别影响因素 影响因素 口音 性别年龄 环境噪音 解决办法 采集各地语音样本 200人以上,适当偏向目标用户群 尽量在安静环境下使用 性能指标 问话---非特定人员; 对口音要求不敏感,说普通话的或者略带口音而不影响理解的普通话用户,系统能正常识别; 用户以自然距离(15cm到1m左右)对准话筒进行语音输入对话; 系统具有一定的抗噪功能,在一般环境噪声下能进行正常语音识别。 在一定环境下,系统识别率达97%以上。 典型应用—语音玩具 语音对话娃娃 语音控制机器人 声控车、飞机 语音玩具现状和发展动态 语音玩具现状和发展动态 语音玩具现状和发展动态 语音玩具现状和发展动态 玩具中语音技术应用要点、问题及对策 玩具中语音技术应用要点、问题及对策 玩具中语音技术应用要点、问题及对策 玩具中语音技术应用要点、问题及对策 玩具中语音技术应用要点、问题及对策 玩具中语音技术应用要点、问题及对策 玩具中

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档