基于相对谱滤波MFCC参数提取.doc

下载文档 降价啦

2
0
约2.86千字
约 6页
2017-11-28 发布于福建
举报
版权申诉
保障服务

基于相对谱滤波MFCC参数提取.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于相对谱滤波MFCC参数提取

基于相对谱滤波MFCC参数提取　　【摘要】MFCC模拟了人的听觉心理效应，相对谱RASTA滤波技术具有补偿环境和声道的动态作用。特征参数RASTA-MFCC结合了两者的优点，其提取通过对原语音信号预加重，分帧，加窗，然后通过Mel滤波器求对数，最后通过DCT求倒谱和RASTA滤波获得。实验证明：RASTA-MFCC参数在语者识别方面相比于MFCC有更大的优势，其更大程度上体现了语音信号激励源声带的信息。【关键词】RASTA-MFCC；MFCC；相对谱滤波 1.引言真正意义上的“自动”说话人识别的研究始于20世纪60年代.此后40多年间人们提出了多种关于语音信号参数的模型[1]。其中Mel频率倒谱系数MFCC应用最为广泛，尤其是在提高说话人的识别率方面。人们对MFCC（Mel Frequency Cepstrum Coefficient））参数进行了很多的研究[2-5]。Mel频率倒谱系数（MFCC）模拟了人的听觉心理效应，消除环境和声道的动态特性，相对谱滤波器补偿了环境和声道的动态作用。本文采用了Mel倒谱算法提取语音参数，再通过对语音信号的滤波处理，使得提取的参数准确性提高，使得提取的参数准确性提高。 2.RASTA-MFCC参数设计对说话人用MFCC进行语音识别，将语音信号简单化，但由于识别的语音信号会受到环境的影响，不能完全辨认出说话人，此时将MFCC通过相对滤波器[6]本文中将通过RASTA滤波后的MFCC参数称为RASTA-MFCC（Relative Spectral Based Mel Frequency Cepstrum Coefficient）。相对滤波器就是对声道的补偿，使语音信号不受环境的影响，最终完成整个设计[7]。 2.1 带通滤波器RASTA的设计语音信号在携带有语音信息的同时也受到通信环境的影响，频率特征对语音信号的短时频谱有强烈地影响。相对滤波器就是对声道的补偿，降低环境变化对于因信号的影响程度[8]. 语音信号是由声道运动编码的，而非语音的干扰成分的变化速率通常位于声道形状变化的典型值之外，因此，Hermansky提出了语音信号的经典RASTA滤波技术，具体见参考文献[9]。 2.2 RASTA-MFCC参数提取及各阶系数物理意义如图1所示，为消除嘴唇处辐射的影响，先对原语音信号进行预加重，然后对加窗分帧后信号进行快速傅立叶变换后进行Mel滤波，以此来模拟人耳的掩蔽效应。之后对取对数后的信号进行DCT变换，最后通过RASTA滤波后得到RASTA-MFCC参数。由语音信号的发生机制知：语音信号可看作声带为激励源，声道为滤波器的发生模型。倒谱参数的高阶更多地反映了激励源的信息，而低阶参数则更多地反映了声道的信息。MFCC可分为高阶（高频）部分与低阶（低频）部分，从而MFCC高阶参数描述的主要是激励源，也就是说话人的语音信号的激励，低阶描述的是说话人发音的声道特性。 3.仿真实现本文的采用了22050Hz采样率、16bits量化、单声道语音，每帧24ms（约512点），帧移量12ms，并利用汉明窗进行短时分析，创建了几个简单韵母和简单名词的语音库。选择由相同人发声的韵母a和o及由和上述韵母发声非同一人发声的简单词汇作为被分析对象。图2是单个韵母“a”和“o”语音滤波前后倒谱系数MFCC和RASTA-MFCC对比图。由图2可知：低阶倒谱波动幅度较大，高阶波动较小，且滤波后的RASTS-MFCC高阶参数幅值变得更小，即高阶参数的波动趋向平稳。这是由于，高阶倒谱系数反映了说话人声带即激励源的信息，而无论滤波前后图2描述的都是同一说话人的声音。由此可见，RASTA-MFCC参数相比于MFCC参数进一步优化了声带特性。分析图3可知：在高阶部分滤波后RASTA-MFCC参数与MFCC规律不同，波动明显变得平缓，在低阶部分仍然保持了滤波前MFCC参数的变化趋势。由于图3中被分析是同一语者不同语音信号，因此两者的声带相同而声道振动不同。因此，理论上反映声带信息的高阶倒谱系数的波动应该相对于反映声道信息的低阶参数的波动要小。通过对上述语音的对比分析，可以得出如下结论：同一说话者的高阶倒谱系数相比于低阶倒谱系数波动较小。尤其是经过RASTA滤波后的倒谱系数，其高阶系数差值更小。这是因为，高阶倒谱系数反映了说话人声带即激励源的信息。至此，语音发声与倒谱各阶系数关系得到了验证，同时也说明了经RASTA滤波后的倒谱参数更适用于说话人（语者）识别。 4.结论在语音发声模型中，声带视为激励源，声道视为滤波器，对于不同的说话人，影响语音信号的特性的是主要激励源，对于同一说话人，其影响语音倒谱的主