语音信号处理第5讲技术总结.ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.最小相位信号法 这就是上面介绍的由倒谱c(n)求复倒谱x^(n)的方法。最小相位信号法是由最小相位信号序列的复倒谱性质及Hilbert变换的性质推导出来的。这是一种较好的解决相位卷绕的方法。但它仅适用于最小相位信号序列。 DFT IDFT 复对数 图: 利用最小相位信号求复倒谱的框图 2.MEL频率倒谱参数(MFCC) 与普通实际频率倒谱分析不同,MFCC(Mel-Frequency Cepstral Coefficents,简称MFCC)的分析着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用Mel频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的具体关系可表示为: 这里,实际频率的单位是Hz。 倒谱和梅尔频率倒谱的区别在于,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这种频率弯曲可以更好的表示声音 MEL频率倒谱参数(MFCC) 取每个三角形的滤波器频率带宽内所有信号幅度加权和作为某个带通滤波 器的输出——对所有滤波器输出作对数运算——做离散余弦变换。(具体 见P71) 1947年维纳首次提出了线性预测 1967年板仓把线性预测技术应用到了语音分析和合成中 目前,线性预测普遍应用于语音信号处理的各个方面 线性预测分析的基本思想是:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。 而这组预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。 线性预分析的基本原理 线性预测分析的基本思想是:用过去p个样点值来预测现在或未来的样点值: 预测误差ε(n)为: 这样就可以通过在某个准则下使预测误差ε(n)达到最小值的方法来决定惟一的一组线性预测系数ai(i=1,2,…,p)。 过去的p个样点信号,预测n时刻的信号 以一个简单的语音模型为例: 系统的输入e(n)是语音激励,s(n)是输出语音,模型的系统函数H(z)可以写成有理分式的形式: (1)H(z)中同时含有极点和零点,称为自回归-滑动平均模型(ARMA是一般模型) (2)H(z)为全极点模型,此时,模型的输出只取决于过去的信号值,称为自回归模型(AR模型) (3)H(z)为全零模型,此时,模型的输出只由模型的输入决定,称为滑动平均模型(MA模型) 以一个简单的语音模型为例: 实际上语音信号处理中最常用的模型为:全极点模型。 采用全极点模型,辐射、声道以及声门激励的组合谱效应的传输函数为: 此时,语音抽样s(n)和激励信号e(n)之间的关系可表示为: 由于语音样点间有相关性,可以用过去的样点值预测未来样点值 浊音:e(n)是以基音周期重复的单位冲激 清音:e(n)是恒稳白噪声 在模型参数估计程中,把如下系统称为线性预测器: 式中ai称为线性预测系数。从而,p阶线性预测器的系统函数 具有如下形式: 预测误差为: 线性预测分析要解决的问题是:给定语音序列(显然,鉴于语 音信号的时变特性,LPC分析必须按帧进行),使预测误差在 某个准则下最小,求预测系数的最佳估值ai,这个准则通常采 用最小均方误差准则。 下面推导线性预测方程。把某一帧内的短时平均预测误差定义为: 为使E{ε2(n)}最小,对aj求偏导,并令其为零,有: 上式表明采用最佳预测系数时,预测误差ε(n)与过去的语音样点正交。由于语音信号的短时平稳性,要分帧处理(10-30ms),对于一帧从n时刻开窗选取的N个样点的语音段Sn,记Φn(j,i)为 则有: 说明: (1)求解滤波器系数 和增益常数G的过程称为语音信号的线性预测分析 (2)鉴于语音信号的时变特性,预测系数的估计必须在一段语音信号中进行,即分帧进行 (3)对于鼻音和摩擦音,要求声道传递函数既要有极点也要有零点,即采用零极模型 线性预测方程组的求解 对于语音段Sn,它的自相关函数为: 因此,可以定义Φn(j,i)为 从而有: 线性预测方程组的求解 把上式展开写成矩阵形式: 这种方程叫Yule-Walker方程,方程左边的矩阵称为托普利兹矩 阵,它是以主对角线对称的、而且其沿着主对角线平行方向的 各轴向的元素值都相等。这种Yule-Wslker方程可用莱文逊-杜 宾(Levinson—Durbin)递推算法来高效地求解。(具体:见P75) LPC谱估计和LP

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档