语音控制00.docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音控制00

语音识别控制在音频、视频系统中的应用发布日期:2005-07-20 作者:吴智量 陈智昌 陈烘华 黄镜洪 来源:微计算机信息  摘要:本系统采用RSC-164单片机作为语音识别芯片,结合时间规整(DTW)技术和结合模块匹配法,对语音频谱信号建立隐含马可夫模型,能识别操作者预先录制的语音命令,命令识别后输出特征信号,通过89C51单片机对输出信号的检测,用位操作的形式实现对音频、视频系统进行语音控制。本系统可以扩展到对其他系统或机器上应用控制。 关键词:???语音识别? 模板匹配法? LPC??? DTW??? 位操作? 模拟开关 一、引言 ?? 随着微电子和计算机软、硬件技术的发展,语音识别控制技术日益成熟。而语音识别控制应用在民用电子、电器中,让民用电子、电器使用界面更加人性化,更加方便自然,做到老人和残疾人可以无障碍使用,这是提高民用电子、电器产品用户界面服务质量的一条重要途径。本文以语音识别控制音频、视频系统为例,展示语音识别控制技术应用在民用电子、电器领域的广阔前景。 二、语音控制系统的原理及构成 本系统主要分三个板块:语音识别模块、控制模块、播放模块。 (一)、硬件原理框图,如图(2): ? (二)、语音识别模块 1、识别系统的设计原理: 从本质上看,说话人识别方法和语音识别方法是相同的,都需经过系统的训练和系统的测试阶段,尽管在训练阶段需要从语音信号中提出的特征回有某些差别,但是采用的对语音信号的处理技术却是相同的,为了在测试阶段将测试语音中提出的特征与参考特征相比较,都需要确定相似性测度和判准则,而本系统采取的是模板匹配法,它的要点是,在训练过程中,从每个说话人发出的训练语句中提取相应的能充分描述各个说话人行为的特征矢量,这些特征矢量称为各说话人的模板。在测试阶段,从说话人发出的语音信号中按同样的处理方法提取测试模板,并与相应的参考模板相比较。由于说话人每次发音是变化的,测试模板和参考模板在时间尺度上不可能完全一致,为了使二者能在时间等效点上加以比较,我们采用动态时间规整法(DTW),在动态时间规整的过程中同时计算两个模板的距离测度并形成判决函数。系统框图如下,图(3): 板块的提取是基于修正的语音信号相对幅度谱,该幅度谱由4路滤波器组提供,每路带宽为220Hz,在频率域上均匀分布,总的频率范围为300~1200H?z,每路包括一个4极点带通滤波器,全波整流器,截止频率为20Hz的4极点低通贝塞尔滤波器,对滤波器每10ms抽样一次,得到输出矢量Aj= ﹛aij﹜,i=1~14,其中aij是第i路输出的第i个时间样值的幅度。然后对Aj进行三步处理:(1)去掉随频率变化极缓慢的部分以突出声道的谐振特征,(2)用aij的平均值来除以个aij以达到归一化,(3)将归一化的幅度矢量量化为3bit,量化是均匀的,为了对说话人声音的自适应,另外给出5bit的存储空间,故每个幅度矢量占用一个字节,对每个人所建立的参考模板是一组参考矩阵,定义为在,某一参考时间点上附近的6个量化幅度矢量Ri=[Ak—5,Ak—3,Ak—1,Ak+1,Ak+3,Ak+5]。 在测试阶段中,对待确认的人语音信号进行相同处理并通过时间规整对参考矩阵模块Rk和输入信号构成的矩阵Xj进行比较,在比较过程中计算两者的欧几里得范数: 使Ekj最小的j值取为正确的时间对准点,相应误差记为Ek,利用在时间规整过程中求出每个时间对准点k上的最小误差Ek,就可以构成一个判决函数:? 其中是对每一个说话人和每一个对准点上可能达到的最小估计误差,判决准则是,如果d=dT,则接受说话人的身份,同时在相应的I/O口上输出相应的编码(其中dT是一个预先确定的固定阈值)。 RSC-164是一块八位单片机,该芯片的内部结构如图(4)所示。它集成了4路带通滤波器,每路带宽为220Hz。这种带通滤波器设置的频率范围为复盖电话频带。由于此滤波器组成的高频部分足够高,因此,对频率较高的女声或小孩声,其识别性能等同于男声的语音,这是显然而见的。经频率分析后的信号经过1个多路开关,分时送入A/D变换器,多路开关的路数由带通滤波器的个数来决定。? RSC-164采用的是8位CPU,所以A/D变换也是8位的。这种设置可使运算速度快,而价格又不高,性价比高。为了使此CPU进行控制,故又内设ROM控制程序。由CPU控制将A/D变换后的数据存入存储器,这里采用RAM。A/D变换与RAM之间有1个缓冲寄存器及其接口。A/D变换后的数据由CPU控制暂存缓冲寄存器,然后再经接口电路送入RAM内。 ???? 识别系统工作时,首先要将语音信号经放大、带通滤波、A/D变换后存入RAM区内,这就是该语音的摸板。这种摸板根据RAM的大小而达到一定数量。1个未知的语言信号,经上述各部分电路

文档评论(0)

asd522513656 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档