基本语音增强方法 .pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基本语音增强方法概述

摘要:语音增强是当今语音处理的一个非常重要的领域,本文主要介绍当今比较普遍的几种

基于人耳掩蔽阈值的语音增强方法:谱减法,维纳滤波法,子空间方法等,并对它们的优缺

点作简要论述。

关键词:语音增强、人耳掩蔽、谱减法、维纳滤波、子空间

现今时代的主流步伐将我们带向自动化方向,语音识别在这一背景下显得尤

为重要。目前已经开发出好几款语音识别软件,但是如何较为精确地实现人耳的

掩蔽效应下的语音增强,仍是大家着重解决的问题。它的首要目标就是在接收端

尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。目前已经出现了谱

减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。

一、语音的特性

语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动

紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音

信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,

从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利

用短时频谱的平稳特性。

人耳在嘈杂的环境中,仍然能够清晰地听到自己想听的内容,一个较弱的

声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳

的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被

人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候,由于干扰

信号和目标信号的强度差别不大,导致机器无法识别。这时语音增强就显得特别

重要了。

二、时域方法

此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参

数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如

果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较

困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳

滤波器、卡尔曼滤波器等。

(1)经典的维纳滤波法是根据Winer-Hopf积分方程求出纯语音和混合音

的传递函数来实现语音增强目的的。经典的算法常常只通过计算无声期间的统计

平均来估计噪声功率谱,这是假设噪声的功率谱在发声前和发声期间基本没有变

化前提下的,这样的估计和假设显然是不够全面的。另外,经典的算法能有效地

抑制变化范围不大或是稳定的噪声,但是对实际中的变化范围很广的噪声效果不

是很好。当然,也有很多改进的维纳滤波法,比如:计算无声段的统计平均得到

初始噪声功率谱功率谱、计算语音段间带噪语音功率谱,并平滑处理初始噪声功

率谱和带噪语音功率谱,更新噪声功率谱。也可以将维纳滤波扩展为卡尔曼滤波,

适用于非平稳过程。

(2)子空间增强算法是将语音信号看成K维向量空间,并将带噪信号分

解为不相关的信号空间和噪声空间,以此消除噪声。这种方法主要利用基于特征

值分解的KL变换对语音信号进行分解,通过对信号失真误差和残留噪声两种判

别函数的控制以平衡语音质量和可懂度。也可以将子空间增强算法与人耳的掩蔽

阈值结合,基于掩蔽特性的子空间增强算法在主客观上作了良好的折衷,去噪效

果明显,且语音出现的同时保留了一定的平滑背景噪声而非突兀噪声,主观感觉

较舒适。

三、频域方法

这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方

法主要包括谱减法、自适应滤波法等。

(1)谱减法(SS:SpectralSubtraction)是在假定加性噪声与短时平

稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而

得到较为纯净的语音频谱。

设s(t)为纯净语音信号,n(t)为噪声信号,y(t)为带噪语音信号,则有:

y(t)=s(t)+n(t)

傅里叶变换后可得功率谱密度,假定语音信号与加性噪声是相互独立的,则

可以由发声前只有噪声时的功率谱得出语音的功率谱,而最后IFFT变换中需要借

助相位谱来恢复降噪后的语音时域信号。由于人耳对于相位变化不敏感,且

EphraimY和MalahD证明在一定条件下语音相位的最小均方误差(MMSE)估计

值就是带噪语音相位本身,因此,基于STSA估计的语音增强方法一般都直接采

用带噪语音的相位作为增强语音的相位。

但是,语音和噪声

文档评论(0)

heart131 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档