网站大量收购独家精品文档,联系QQ:2885784924

《语音信号处理》MFCC梅尔频率倒谱系数.pptx

《语音信号处理》MFCC梅尔频率倒谱系数.pptx

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

梅尔频率倒谱系数;主要内容;倒谱---同态信号处理

同态信号处理:将非线性问题转化为线性问题的处理方法。

同态系统可分解为三个子系统;倒谱---同态信号处理

同态信号处理:将非线性问题转化为线性问题的处理方法。

同态系统可分解为三个子系统

第一个子系统D*[]完成将卷积性信号转化为加性信号的运算,即对于信号x(n)=xl(n)*x2(n)进行了如下运算处理:;同态信号处理的基本原理

由于x^(n)为加性信号,所以第二个子系统可对其进行需要的线性处理得到y^(n)。

第三个子系统是逆特征系统D*-1[],它对y^(n)=y1^(n)+y2^(n)进行逆变换,使其恢复为卷积性信号,即进行了如下处理:

从而得到卷积性的恢复信号。;复倒谱和倒谱

虽然D*[]与D*-1[]系统中的x^(n)和y^(n)信号也均是时域序列,但它们所处的离散时域显然不同于x(n)和y(n)所处的离散时域,所以我们把它称之为“复倒频谱域”。

x^(n)是x(n)的“复倒频谱”,简称为“复倒谱”,有时也称作对数复倒谱。其英文原文为“ComplexCepstrum”,Cepstrum是一个新造的英文词,它是由Spectrum这个词的前四个字母倒置而构成的。

同样,序列y^(n)也是y(n)的复倒谱。;复倒谱和倒谱

在绝大多数数字信号处理中,X(z),X^(z),Y(z),Y^(z)的收敛域均包含单位圆,因而D*[]与D*-1[]系统有如下形式:

D*[]=

D*-1[]=;设:

则取其对数得:

即复数的对数仍是复数。如果,我们只考虑X^(ejω)的实部,令:

显然c(n)是序列x(n)对数幅度谱的傅里叶逆变换。c(n)称为“倒频谱”或简称为“倒谱”,有时也称“对数倒频谱”。

倒谱对应的量纲是“Quefrency”,它也是一个新造的英文词,是由“Frequency”转变而来的,因此也称为“倒频”,它的量纲是时间。c(n)实际上就是我们要求取的语音信号倒谱特征。;人的听觉感知过程;1.人的听觉特性之一;人耳的听觉特性之二;人耳的听觉特性之三;梅尔频率;线性频率与Mel频率间的对应关系如图:;类似于临界频带的划分,Mel滤波器组将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组。

如下图所示:;在Mel频率轴上配置L个三角形滤波器,L的值由信号的截止频率决定.

每个三角形滤波器的中心频率c(l)在Mel频率轴上等间隔分配

o(l),c(l)和h(l)分别是第l个三角形滤波器的下限,中心和上限频率

相邻三角形之间的下限,中心和上限频率的关系:;中心频率f(m)可以用下面的方法定义:;;梅尔频率倒谱系数;MFCC的定义;使用的最广泛的特征之一

考虑了人耳的听觉生理特征

在语音识别中,相比于LPC系数、PARCOR系数,MFCC有更强的鲁棒性和可靠性;MFCC的计算方法;求MFCC流程;原始语音信号经过预加重、分帧和加窗处理后,需要将时域信号变换到频域。

常用的变换方法为“傅立叶变换(DFT)”或者其快速算法“快速傅里叶变换(FFT)”;将上述线性频谱利用前面提到的Mel滤波器组进行Mel滤波;取对数;取对数:对三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。;由于各个滤波器组输出的幅度或能量之间具有很强的相关性,因此有必要去除各维信号之间的相关性,并将信号映射到低维空间。(如HMM中,假设各维特征独立,以使用对角协方差矩阵,从而减小计算量)

在MFCC中,对滤波器组的输出使用了离散余弦变换(DCT)来去除相关性并获得倒谱系数c(n):;LPC转换法;MFCCweighting;MFCC特征参数主要反映语音的静态特征(每一帧的特征)。

语音是连续变化的,每一个语音帧不是孤立的。

Theportionoftheutterancewherespectralvariationwaslocallymaximumcontainedthemostimportantphoneticinformationinthesyllable.

S.Furui,“Ontheroleofdynamiccharacteristicsofspeechspectraforsyllableperception,”FallMeetingofAcoust.Soc.Japan,1-1-2:October1984.

将动态信息和静态信息结合起来作为特征,能很大程度上提高系统的识别性能;TemporalCepstralDerivative;差分系数的计算方法;;语音特征;LPCProcessor;TypicalLPCAnalysisPa

文档评论(0)

autohyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档