基于BP神经网络的语音识别技术.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
学 海 无 涯 ;2;3;4;5;学 海 无 涯 可以用三个子模型:激励模型、声道模型、辐射模型的串联来表示。 激励模型一般分为浊音激励和清音激励。发浊音时,由于声带不断张开和关 闭将产生间歇的脉冲波,这个脉冲波类似于斜三角形的脉冲。发清音时,无论是 发阻塞音或摩擦音,声道都被阻碍形成湍流。所以,可把清音激励模拟成随机白 噪声。 声道模型有两种最常见的建模方式。一是把声道视为由多个等长的不同截面 积的管子串联而成的系统,按此观点推导出的叫“声管模型”;另一个是把声道 视为一个谐振腔,按此推倒出的叫“共振峰模型”。 从声道模型输出的速度波与语音信号的声压波之倒比称为辐射阻抗,它表征 口唇的辐射效应。由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型 是一阶类高通滤波器。;7;学 海 无 涯 ;学 海 无 涯 容易丢失信号特征。一般取帧长 20ms,帧移为帧长的 1/3~1/2。 在语音信号数字处理中常用的窗函数是矩形窗、汉明窗等,它们的表达式如 下(其中 N 为帧长): 矩形窗:;学 海 无 涯 段)来计算确定。因此,只有准确地判定语音信号的端点,才能正确地进行语音处理。 端点检测的目的是从包含语音的一般信号中确定出语音的起点以及终点,一 般采用平均能量或平均幅度值与过零率相乘的方法来判断。这种利用短时能量和 短时平均过零率两种特征共同参与检测,也被称为双门限法。 (1)短时能量 设S(n)为加窗语音信号,第t 帧语音的短时平均能量为:;11;N;学 海 无 涯 整个语音信号的端点检测可以分成四段:静音、过渡段、语音段、结束。在 静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进入过渡段。 在过波段中,由于参数的数值比较小,不能确信是否处于真伪的语音段,因此只 要两个参数的数值回落到低l、J 限以下,就将当前状态恢复到静音状态。而如 果在过渡段中两个参数中的任一个超过了高门限,就可以确信进入语音段了。当 前状态处于语音段时,如果两个参数的数值降低到低门限以下,而且总的计时长 度小于最短时间门限,则认为这是段噪音,继续扫描以后的语音数据。否则就标 记好结束端点,并返回。从而达到抗干扰的目的、提高识别率。如下图所示。;学 海 无 涯 的处理,从而得到一个矢量序列,这个矢量序列可以代表原始的语音信号所携带 的信息,初步实现数据压缩。特征参数主要有:能量、幅度、过零率、频谱、倒 谱和功率谱等。 考虑到其他因素的影响,还有许多基于基本参数的参数,本文选用了 MEL 频率倒谱系数(MFCC)进行提取特征参数。 MFCC 系数的计算是以“bark”为其频率基准的,它和线性频率的转换关系 是: (2-9) MFCC 系数也是按帧计算的,首先要通过 FFT 得到该帧信号的功率谱S(n), 转换为Mel 频率下的功率谱。这需要在计算之前先在语音的频谱范围内设置若 干个带通滤波器: NHm(n) m=0,1,…,M-1; n=0,1,…,N/2-1 (2-10) M 为滤波器的个数,通常取 24,与临界带的个数一样;N 为一帧语音信号 的点数,为了计算FFT 的方便,通常取 256。滤波器在频域上为简单的三角形, 其中心频率fm 在Mel 频率轴上是均匀分布的。 从图 2.5 就可以看到MFCC 系数的计算过程如下: 预处理:确定每一帧语音采样序列的长度(如 N=256),并对每帧序列 s(n) 进行预加重、分帧和加窗处理; 计算离散功率谱:对预处理的每帧进行离散 FFT 变换得到其频谱,再取 模的平方作为离散功率谱S(n); 将功率谱通过滤波器组:计算 S(n)通过M 个Hm(n)后所得的功率值,即 计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到 M 个参数Pm,m=0,1,…… M-1; 取对数:计算Pm 的自然对数,得到 Lm,m=0,1,……M-1; 离散余弦变换:对 Lm 计算其离散余弦变换,得到 D m,m=0,1,……M-1, 舍去代表直流成份的 D0,取 D1,D2,……,Dk 作为 MFCC 参数。;学 海 无 涯 ;学 海 无 涯 ;17;18;学 海 无 涯 [net,tr]=train(net,P,T);% 网络训练 其中[net,tr]中的net 为更新了权值的神经网络,tr 为训练记录(次数和每次 训练的误差)。从相关的神经网络训练中可以看出,当神经网络的误差平方 0.0000718 时,小于性能目标值 0.0001,神经网络训练结束,开始进行系统的 性能测试。图 3 为学习误差曲线图。;20;21;22;23;24;25;26;27;28

文档评论(0)

number03 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档