第12讲 基于声卡的语言识别系统.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第12讲 基于声卡的语言识别系统

基于声卡的语音识别系统 系统简介 功能: 在经过密码校验后可以进行密语录制 进行待测者的语音录制(多次) 待测者声音与密语进行语音匹配 连续2次语音匹配成功?系统就认定成功 避免恶意试音,当试音失败超过10次系统就锁死。 前面板操作说明 1. 在输入正确密码后点击声音采集按钮,绿灯亮进行“密语”的录制。 如果密码错误红灯亮,并且无法录制密语。 2. 点击语音识别按钮,将录制待测者的声音。 3. 当待测者声音录制完后,自动与录制的 “密语”进行匹配。 匹配成功,清0失败次数。成功次数加1,连续2次成功,系统认定成功。 匹配失败,清0成功次数。失败次数+1。10次后系统自动锁死。 原 理 声音信号转成功率谱后出现的明显特性曲线(0-3500HZ) 同一人2次说“开门”产生的2条特性曲线 把2次采集到的声音转成2个特性曲线(0-520HZ) 计算2个特性曲线相似度 高于设定相似度则“匹配”,低于设定相似度则“不匹配” 关键点与难点 1.声音信号的声音特性的采取与转换。 (声音采集信号?声音波形?功率谱?选0-520HZ) 2.两波形相似度的计算。 (提取两波形的特性参数存于数组(1个波形2个数组)?数学方法对数组进行处理?计算出相似度) 一个声音波形信号转成2个数组 1.每20HZ分成一段,将每段出现波峰时所对应的频率值的均值组成一个数组(如果没有波峰出现则置0)。 作用:通过2个波形对应的数组异或可以判断2个波形在每段有没相同的波峰出现。 2.每20HZ分成一段,将每段的幅值(Y)的均值组成一个数组。 把2个数据差值所占最大值的百分比算出来(大于百分75算不匹配) 作用:减少波峰位置匹配时出现的误差(第一种方法) 声音采集和训练识别 “说话人识别”的基本原理主要包括两阶段:训练和识别。 在训练阶段,系统的每个使用者说出若干个训练语句,系统据此建立每个使用者的模板和模板参数。 在识别阶段,待识人的语音特征提取后与系统训练时产生的模板或模板参数进行比较。 在说话人确认中,通过判断测试音与所生成的说话人的模型的匹配距离是否小于一定阈值做出判断。 语音识别的机理 “说话人”的识别方法有两种: 发音内容依存型:是预先确定识别用语的方法。 发音内容独立型:是无论讲什么话都可进行识别的方法。 从声音中准确提取和分离个人信息是相当困难的。至今还没有建立起准确分离和提取个人特征的技术。当前的状况是说话人识别多采用固定声音内容的方法来提高识别率。 多年来,人们对于特征参数在说话人识别系统中的有效性进行大量的验证和研究,得到许多有意义的结果。 声音可以理解成由振幅和相位随时间缓慢变化的正弦波构成。人的听觉对声音的感觉特征主要包含在振幅信息中,相位信息一般不起作用。在研究声音的性质时,往往把时域信息(波形图)变换得到它的频域信息(频谱),通过研究频谱和与频谱相关联的特征获得声音的特性。 语音识别的假设 语音信号是一种典型的非平稳信号,但是由于语音的形成过程是与语音器官的运动密切相关的。这种物理运动比起声音振动速度要缓慢的多。因此,语音信号常常可以假定为短时平稳的。在10~30ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。这样我们可以采用平稳的分析方法来处理。 语音识别的假设 我们的设计建立在如下几点假设基础之上: 将原始的声音信号转换成数字信号的过程对声音的特征造成的影响可以忽略。 录音设备和外界环境对声音信号的影响可以忽略。 声音特征基本反映在振幅信息中。 从时域变换到频域后,语音特征体现在它的频谱中,忽略频谱失真。 语音信号是短时平稳的。 本系统设计思路 本系统模型采用的是声音内容依存型的说话人确认系统,需要先让系统对使用者说某个特定词的语音信号进行“学习”。该特定词就成为系统确认通过的“密语”。也就是说想让系统确认通过,首先需要知道这个“密语”。 本系统中我们把这个“密语”设定为汉语的“开门”一词。当然这个“密语”是可以改变的。 本系统设计步骤 1. 语音个人特征的提取。 我们通过Windows自带的录音机得到声音数字信号。这种信号是一系列离散时间上的量化的振幅样点。图1给出某人说三次“开门”时的波形图。 本系统设计步骤 从上图中可以看出,虽然同一人说的都是同一个词,但三个波形图还是有一定差别的。所以即便声音特征反映在振幅信息中也很难直接从时域信号中提取出语音的个人特征。因此需要从其它的角度来提取语音的个人特征。 语音的感知过程与人类

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档