网站大量收购独家精品文档,联系QQ:2885784924

基于双分支卷积与跨域建模的语音增强算法研究.pdf

基于双分支卷积与跨域建模的语音增强算法研究.pdf

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

在复杂环境以及突发背景噪音条件下,在面对真实场景的挑战时,以传统的统

计和规则基础的算法往往表现出局限性,使得语音增强任务非常困难且具有挑战

性。在过去几年,深度学习迅速发展,成为人工智能领域的关键技术之一。尽管语

音增强技术已经取得了显著的发展,但是现有的语音增强网络模型在有效利用音频

信息方面仍然存在一些不足,这限制了该技术的进一步发展。因此,迫切需要建立

一种能够充分利用信息的新型网络模型,以更好地应对语音增强领域的挑战。本文

将从信息增强的角度出发,开展相关研究,旨在解决现有模型在信息利用方面的局

限性。通过探索如何更有效地利用音频信息,我们希望能够提出创新性的解决方

案,进一步推动语音增强技术的发展,从而提高语音处理系统的性能和质量。主要

研究内容如下:

1、针对深度复杂网络过度依赖卷积层的表示能力,缺乏对幅值信息和相位信

息的交互的问题,提出了一种结合卷积增强窗口注意力的双分支网络语音增强模

型。

语谱图是对语音信号的时频表示,提供了丰富的特征信息。针对语谱图丰富的

语料信息,本文提出了一种结合卷积增强窗口的双分支语音增强神经网络,进一步

的对深度复杂网络模型进行了改进。在这一结构中,采用双分支网络,同时对幅值

和相位进行建模。在编码器和解码器之间引入卷积增强窗口模块,以加强音频信号

特征的提取,通过此模块高效地提取了局部和全局上下文信息。实验结果表明,本

文的模型在多数评价指标上都优于目前的大多数方法。

2、针对多级神经级联结构的跨域语音增强方法虽然结合了跨域语音表示的优

势,但是基于语音预测的角度出发,过多的专注于语音建模忽略了背景噪音的特

性,提出一种交互式语音和噪音建模的多级神经级联跨域语音增强模型。

本文提出了一种使用双分支神经网络对语音和噪声成分同时建模的新想法,并

且同时利语音表示的三个不同领域,即谱幅、波形和复杂谱图,利用不同领域的优

点逐步抑制背景噪声。除了仅在最终的输出层进行信息融合之外,在两个分支之间

的一些中间特征域中引入了交互模块,以使两个分支能相互受益。这种交互式建模

能利用从一个分支中学到的特征来抵消不需要的部分,并恢复另一个分支所缺失的

I

部分,从而增强它们的分辨能力。实验结果表明,本文提出的方法获得了较好的增

强结果,在语音质量和可理解性方面都优于以前的基线模型。

3、提出基于Flask的语音增强可视化系统。该系统包含了在增强音频选择、

模型选择、增强音频可视化及增强音频播放四个模块。系统具有简洁直观,操作简

单,易于使用的特点,该系统的开发便于用户使用本文提出的模型以及其他语音增

强模型对增强结果进行可视化对比。

关键词:语音增强;全局上下文信息;信息交互;信息融合;跨域

II

ABSTRACT

Incomplexenvironmentsandundersuddenbackgroundnoiseconditions,traditional

statisticalandrule-basedalgorithmsoftenexhibitlimitationswhenfacingreal-world

challenges,makingthetaskofspeechenhancementverydifficultandchallenging.Over

thepastfewyears,deeplearninghasrapidlydevelopedandbecomeoneofthekey

technologiesinthefieldofartificialintelligence.Whilesignificantadvancementshave

beenmadeinspeechenhancementtechnology,existingspeechenhancementnetwork

modelsstillhaveshortcomingsineffectivelyutilizingaudioinformation,therebylimiting

furtherprogressinth

文档评论(0)

dongbuzhihui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档