语音增强算法的分类 .pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

语音增强算法的分类

现实环境中的噪声多种多样,特性各异,很难找到一种通用的语音增强算法适用于各种

噪声的消除;同时语音增强算法与语音信号数字处理理论、人的听觉系统和语音学等学科紧

密相关,这也促使人们必须根据不同的噪声源来选择不同的对策。以上原因使语音增强技术

研究呈现百花齐放的局面。几十年来,许许多多的学者在这方面进行了不懈的努力,总结出

了许多有效的方法。

根据信号输入的通道数,可将这些方法分为单通道的语音增强算法与多通道的语音增强

算法。单通道的语音系统在现实生活中较常见,手机、耳麦等都属于单通道语音系统。这种

情况下,语音与噪声同时存在于一个通道中,语音信号与噪声信号必须从同一个带噪语音中

获得。这种系统一般要求信号中的噪声比较平稳,以便在无声段对噪声进行估计,再依据估

计得到的噪声参数对有声段进行处理,得到增强语音。而多通道的语音系统中语音增强的一

种算法是,利用各个通道的语音信号之间存在的某些相关性,对带噪语音信号进行处理,得

到增强的语音。比如,在自适应噪声抵消法中采用了两个话筒作为输入,其中一个采集带噪

的语音信号,另外一个采集噪声,从噪声通道所采集的噪声直接当作带噪语音中的噪声,并

将它从带噪语音中减去即可。另一种多通道的语音增强算法是采用阵列信号,这种方法采用

多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距

离不同,最后在各个接收设备中的合成信号也不同,再根据这些信号将各个独立信号分离出

来。

按照所依据原理的不同,我们可以将语音增强分为以下几类:

(1)参数方法

此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、

LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有

较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法

常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。

(2)非参数方法

非参数方法不需要从带噪语音信号中估计语音模型参数,这就使得此类方法相对于参数方法

而言应用较广。但由于没有利用可能的语言统计信息,故结果一般不是最优的。同时,我们

知道,语音信号是非平稳的随机过程,但语音信号特性的缓慢变化使得在较短的时间(比如

10~30ms)内,可以视其为平稳的,如果能从带噪语音的短时谱中估计出“纯净”语音的短

时谱,即可达到语音增强的目的。由于人耳对语音的感知主要是通过语音信号中各频谱分量

的幅度来获得的,而对各分量的相位并不敏感,因此,这类方法的重点是将估计的对象放在

语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。

(3)统计方法

统计方法比较充分地利用了语音和噪声的统计特性,如语音信号可视不同情况和需要采用高

斯模型、拉普拉斯模型以及伽玛模型等。此类方法一般是在建立了模型库后,经历一个训练

过程来获得初始统计参数,并且在后续的工作过程中要根据实际的数据实时的更新这些统计

参数,以使模型能更好的符合实际情况,它与语音系统的联系非常密切。这类方法里面主要

包括最小均方误差估计(MMSE,MinimumMeanSquareError)、对数谱估计的最小均方误差

(MMSE-LSA,MinimumMean-SquareErrorLog-SpectralAmplitude)、听觉掩蔽效应(Masking

Effect)等。

(4)多通道方法

多通道方法利用了更多的信息,包括空间信息,可以更好地滤除噪声、分离语音,但对硬件

设备要求高,算法一般较复杂。噪声抵消法、延迟一相加波束形成器(delay-sumbeamformer)、

自适应波束形成器(adaptivebeamformer)、后滤波波束形成器(post-filteringbeamformer)、独

立分量分析(IndependentComponentAnalysis,ICA)方法都归于这一类。

(5)其它方法

这类方法与前述方法相比,不够成熟,使用没有前述方法广泛,我们可以概括的称之为非主

流方法。这类方法主要有:基于小波(Wavelet)变换、卡亨南一洛维变换(KLT,KarhunenLoeve

Transform)、离散余弦变换(DCT,DiscreteCosineTransform)等的语音增强算法。此类中的上

述几种方法不需像前述方法那样去对语音进行建模,也不需要依据各种准则对噪声的参数进

行估计。

除此以外,还可以

文档评论(0)

139****6794 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档