网站大量收购独家精品文档,联系QQ:2885784924

第四讲 语音信号处理第3.5~3.6章.ppt

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
短时能量 过零率 短时平均幅度差 MFCC的计算方法 FFT LPC变换法 MFCC 样例 LPC谱估计和LPC复倒谱 1.LPC谱估计 LPC谱估计具有一个特点:在信号能量较大的区域即接近谱的峰值处,LPC谱和信号谱很接近;而在信号能量较低的区域即接近谱的谷底处,则相差比较大。这个特点对于呈现谐波结构的浊音语音谱来说,就是在谐波成分处LPC谱匹配信号谱的效果要远比谐波之间好得多。LPC谱估计的这一特点实际上来自均方误差最小准则。 从以上讨论我们知道如果p选得很大,可以使|H(ejω)|精确地匹配于|S(ejω)|,而且极零模型也可以用全极点模型来代替,但却增加了计算量和存储量,且p增加到一定程度以后,预测平方误差的改善就很不明显了,因此在语音信号处理中,p一般选在8~14之间。 LPC谱估计和LPC复倒谱 2.LPC复倒谱 LPC系数是线性预测分析的基本参数,可以把这些系数变换为其他参数,以得到语音的其他替代表示方法。LPC系数可以表示整个LPC系统冲激响应的复倒谱。 按上式求得的复倒谱h^(n)称之为LPC复倒谱。 LPC复倒谱由于利用了线性预测中声道系统函数H(z)的最小相位特性,避免了相位卷绕问题;且LPC复倒谱的运算量小,它仅是用FFT求复倒谱时运算量的一半;又因为当p→∞时,语音信号的短时复频谱S(ejω)满足|S(ejω)|= |H(ejω)|,因而可以认为h^(n)包含了语音信号频谱包络信息,即可近似把h^(n)当作s(n)的短时复倒谱s^(n),来分别估计出语音短时谱包络和声门激励参数。在实时语音识别中也经常采用LPC复倒谱作为特征矢量。 对以上所介绍的进行总结可知,为了估计语音信号的短时谱包络,有三种方法:①由LPC系数直接估计语音信号的谱包络;②由LPC倒谱估计谱包络;③求得复倒谱s^(n),再用低时窗取出短时谱包络信息,这种方法称之为FFT倒谱。 LPC谱估计和LPC复倒谱 3.LPC美尔倒谱系数(LPCCMCC) 由式(3-143)求得复倒谱h^(n)后,由c(n)=1/2[h^(n)+h^(-n)]即可求出倒谱c(n)。但是,这个倒谱c(n)是实际频率尺度的倒谱系数(称为LPC倒谱系数:LPCC)。根据人的听觉特性可以把上述的倒谱系数进一步按符合人的听觉特性的美尔(MEL)尺度进行非线性变换,从而求出如下所示的LPC美尔倒谱系数(LPCMCC)。 线谱对(LSP)分析 线谱对分析也是一种线性预测分析方法,只是它求解的模型参数是“线谱对”(Line Spectrum Pair,简称为LSP),它是频域参数,因而和语音信号谱包络的峰有着更紧密的联系;同时它构成合成滤波器H(z)时容易保证其稳定性,合成语音的数码率也比用格型法求解时要低。 两边同时乘以[1 z-1 z-2 … z-p],得: 分别将kp+1=-1和kp+1=1时的Ap+1(z)用P(z)和Q(z)表示,可得: 这两个式子均为p+1阶多项式,则由上面二式可直接得出: 并有: 所以如果知道了P(z)=0和Q(z)=0的根,我们就可以求得A(z)。 并且ωi、θi按下列关系排列: 由于因式分解中的系数ωi、θi成对出现,反映了谱的特性,故称为“线谱对”。而且可以证明,P(z)和Q(z)的零点互相分离,是保证合成滤波器H(z)=1/A(z)稳定的充分必要条件。 从上面的分析可以看到,线谱对分析的基本出发点是将A(z)的p个零点通过P(z)和Q(z)映射到单位圆上,这样使得这些零点可以直接用频率ω来反映,且P(z)和Q(z)各提供p/2个零点频率;而从物理意义上来说,P(z)和Q(z)就对应着声门全开或全闭时的全反射情况(因为反射系数是kp+1=±1)。 编程实现: 1.提取一段语音信号的短时能量、过零率、短时平均幅度差。 2.提取一段语音的傅里叶变换幅度谱、线性倒谱、梅尔频率倒谱(MFCC)。 3. 提取一段语音的LPC参数。 4. 估计一段语音的基音频率。 5. 估计一段语音的前3个共振峰频率。 人耳的听觉特性之三 基于以上两点考虑,我们构造 (1)Mel频率尺度;——人耳感知的对数关系 (2)Mel滤波器组,——屏蔽效应 来模仿人耳的感知特性。 这组滤波器需要满足: (1)中心频率在Mel频率域内呈线性分布; (2)每一个滤波器的带宽在其临界带宽之内。 梅尔频率倒谱系数 人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的。在语音特征的提取上,人类听觉系统做得非常好,它不仅能提取出语义信息, 而且能提取出说话人的个人特征,这些都是现有的语音识别系统所望尘莫及的。如果在语音识别系统中能模拟人类听觉感知处理特点, 就有可能提高语音的识别率。 MFCC 考虑到了人类的

文档评论(0)

8883320 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档