网站大量收购独家精品文档,联系QQ:2885784924

基于动态卷积和窄带Conformer网络的TSEGAN语音增强研究.pdfVIP

基于动态卷积和窄带Conformer网络的TSEGAN语音增强研究.pdf

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

语音增强是语音信号处理领域的研究重点之一,其目的是抑制或消除说话人语音的背景

噪声,同时保证语音不产生失真。在语音增强的研究中,主要通过以下两个方面评价一个算

法的优劣:一方面是抑制或消除说话人语音的背景噪声,另一方面是保证生成的增强语音拥

有较高的语音感知质量和可懂度。近些年,研究人员把更多注意力放在不断发展的深度学习

上,以深度神经网络为基础的语音增强方法自然地成为该领域的主要研究方向。在基于深度

学习的神经网络技术发展的促进下,语音增强领域涌现出许多性能优异的模型。本文以基于

生成对抗网络的时域语音增强模型(TSEGAN模型)为基准,针对增强语音的感知质量和可

懂度两方面展开相关分析与研究,并提出一系列提升模型性能的方法。

首先,为了提高模型的表达能力,生成质量更好的增强语音,本文对生成器的网络结构

进行了改进,将窄带Conformer网络引入到TSEGAN模型的生成器中,提出了基于窄带

Conformer网络的TSEGAN模型。由于多层次的窄带Conformer网络兼具Transformer的全局

建模和卷积网络的局部建模能力,使得生成器可以更好地处理语音信号的特征信息,从而提

高了增强语音的感知质量和可懂度。主观和客观评价结果表明,相较于基准模型,本文提出

的NBC-TSEGAN模型增强语音的平均STOI值提升4.92%,平均PESQ值提升2.85%,表明

本文方法提高了增强语音的可懂度和感知质量,平均CSIG/CBAK/COVL值分别提升4.85%、

3.28%、4.30%,验证了本文方法能够有效提升增强语音的整体听觉效果。

接着,在上述模型改进的基础上,为了进一步提升增强语音的质量,本文提出了基于动

态卷积和窄带Conformer网络的语音增强模型,该模型利用动态卷积不会额外增加大量计算

且能进一步提升模型性能的特点,将鉴别器中的二维卷积替换为动态卷积来提高鉴别器的反

欺骗能力,从而提高生成器的生成和表达能力。主观和客观评价结果表明,相较于基准模型,

DyConv-NBC-TSEGAN模型增强语音的平均STOI值提升6.56%,平均PESQ值提升4.63%,

平均CSIG/CBAK/COVL值分别提升9.70%、7.38%、5.73%;相较于NBC-TSEGAN模型,

DyConv-NBC-TSEGAN模型增强语音的平均STOI值提升1.96%,平均PESQ值提升1.73%,

平均CSIG/CBAK/COVL值分别提升4.63%、2.38%、1.37%,验证了本文方法能够有效提升

增强语音的感知质量和整体听觉效果,从而有效提高模型的增强效果。

综上所述,本文通过在基准模型中引入窄带Conformer网络,提高了生成器的生成和表

达能力,从而提升了增强语音的感知质量和可懂度。为了进一步提升增强语音的质量,本文

提出了基于动态卷积和窄带Conformer网络的语音增强模型,利用动态卷积替换普通卷积,

动态卷积可以随时间变化产生不同的动态卷积核来动态调整卷积核的参数,改善了模型性能,

从而有效提升增强语音的可懂度和整体听觉效果。

关键词:语音增强,基于生成对抗网络的时域语音增强模型,深度神经网络,窄带

Conformer网络,动态卷积

Abstract

Speechenhancement(SE)isoneoftheresearchfocusesinthefieldofspeechsignalprocessing,

withtheaimofsuppressingoreliminatingthebackgroundnoiseofthespeakersspeechwhile

ensuringthatthespeechdoesnotproducedistortion.IntheresearchofSE,SEmainlyevaluatesthe

advantagesanddisadvantagesofanalgorithmthroughtwoaspects:oneistosuppressoreliminate

thebackgroundnoise

文档评论(0)

论文资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档