语音增强算法的分类 .pdfVIP

下载本文档

0
0
约2.51千字
约 2页
2024-11-25 发布于河南
举报
版权申诉

语音增强算法的分类 .pdf

1、本文档共2页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音增强算法的分类

现实环境中的噪声多种多样，特性各异，很难找到一种通用的语音增强算法适用于各种

噪声的消除；同时语音增强算法与语音信号数字处理理论、人的听觉系统和语音学等学科紧

密相关，这也促使人们必须根据不同的噪声源来选择不同的对策。以上原因使语音增强技术

研究呈现百花齐放的局面。几十年来，许许多多的学者在这方面进行了不懈的努力，总结出

了许多有效的方法。

根据信号输入的通道数，可将这些方法分为单通道的语音增强算法与多通道的语音增强

算法。单通道的语音系统在现实生活中较常见，手机、耳麦等都属于单通道语音系统。这种

情况下，语音与噪声同时存在于一个通道中，语音信号与噪声信号必须从同一个带噪语音中

获得。这种系统一般要求信号中的噪声比较平稳，以便在无声段对噪声进行估计，再依据估

计得到的噪声参数对有声段进行处理，得到增强语音。而多通道的语音系统中语音增强的一

种算法是，利用各个通道的语音信号之间存在的某些相关性，对带噪语音信号进行处理，得

到增强的语音。比如，在自适应噪声抵消法中采用了两个话筒作为输入，其中一个采集带噪

的语音信号，另外一个采集噪声，从噪声通道所采集的噪声直接当作带噪语音中的噪声，并

将它从带噪语音中减去即可。另一种多通道的语音增强算法是采用阵列信号，这种方法采用

多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距

离不同，最后在各个接收设备中的合成信号也不同，再根据这些信号将各个独立信号分离出

来。

按照所依据原理的不同，我们可以将语音增强分为以下几类：

（1）参数方法

此类方法主要依赖于语音生成模型(例如AR模型)的使用，需要提取模型参数(如基音周期、

LPC系数等)，经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有

较大的差别，或者由于某些原因使得提取语音参数较困难，则这方法较容易失败。这类方法

常用到一些滤波器，如梳状滤波器、维纳滤波器、卡尔曼滤波器等。

（2）非参数方法

非参数方法不需要从带噪语音信号中估计语音模型参数，这就使得此类方法相对于参数方法

而言应用较广。但由于没有利用可能的语言统计信息，故结果一般不是最优的。同时，我们

知道，语音信号是非平稳的随机过程，但语音信号特性的缓慢变化使得在较短的时间(比如

10～30ms)内，可以视其为平稳的，如果能从带噪语音的短时谱中估计出“纯净”语音的短

时谱，即可达到语音增强的目的。由于人耳对语音的感知主要是通过语音信号中各频谱分量

的幅度来获得的，而对各分量的相位并不敏感，因此，这类方法的重点是将估计的对象放在

语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。

（3）统计方法

统计方法比较充分地利用了语音和噪声的统计特性，如语音信号可视不同情况和需要采用高

斯模型、拉普拉斯模型以及伽玛模型等。此类方法一般是在建立了模型库后，经历一个训练

过程来获得初始统计参数，并且在后续的工作过程中要根据实际的数据实时的更新这些统计

参数，以使模型能更好的符合实际情况，它与语音系统的联系非常密切。这类方法里面主要

包括最小均方误差估计(MMSE,MinimumMeanSquareError)、对数谱估计的最小均方误差

(MMSE-LSA,MinimumMean-SquareErrorLog-SpectralAmplitude)、听觉掩蔽效应（Masking

Effect)等。

（4）多通道方法

多通道方法利用了更多的信息，包括空间信息，可以更好地滤除噪声、分离语音，但对硬件

设备要求高，算法一般较复杂。噪声抵消法、延迟一相加波束形成器(delay-sumbeamformer)、

自适应波束形成器(adaptivebeamformer)、后滤波波束形成器(post-filteringbeamformer)、独

立分量分析(IndependentComponentAnalysis，ICA)方法都归于这一类。

（5）其它方法

这类方法与前述方法相比，不够成熟，使用没有前述方法广泛，我们可以概括的称之为非主

流方法。这类方法主要有：基于小波(Wavelet)变换、卡亨南一洛维变换(KLT,KarhunenLoeve

Transform)、离散余弦变换(DCT,DiscreteCosineTransform)等的语音增强算法。此类中的上

述几种方法不需像前述方法那样去对语音进行建模，也不需要依据各种准则对噪声的参数进

行估计。

除此以外，还可以

您可能关注的文档

文档评论（0）

139****6794 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

语音增强算法的分类 .pdfVIP