网站大量收购独家精品文档,联系QQ:2885784924

基于峰值跟踪和调幅的-单声道语音分离.docx

基于峰值跟踪和调幅的-单声道语音分离.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于峰值跟踪和调幅的

单声道语音别离

胡国宁

俄亥俄州立大学

生物物理方案

Hu.117@osu.edu

概要

单声道语音别离对于听觉分析(ASA)仍然是一个计算上的挑战,对于现有的计算视觉分析(CASA)系统来说,最大的问题在于它们无力应对信号的高频变化范围。心理声学证据说明不同的感性机制涉及处理已解决和未解决的谐波。我们提出了一种用以分别处理低频和高频信号的语音别离系统。对于低频信号,我们的模型生成基于段时间连续性和交叉信道相关性,以及根据周期的分片将它们分组;对于高频信号,该模型基于除了时间连续性之外的公共振幅调制〔AM〕生成段,并且根据AM重复率对其进行分组。分组过程的根底是首先从基于全局音调的别离语音估计然后通过心理声学约束来验证的音高轮廓。我们系统地评估过我们的系统,它产生比以前的CASA系统更好的性能,特别是在高频范围。

1.简介

在现实世界环境中,通常目标语音同时伴有声干扰。有效的

王德良

俄亥俄州立大学

计算机信息科学系认知科学中心

dwang@cis.ohio-state.edu

语音别离系统将大大方便许多应用,包括自动语音识别〔ASR〕

和说话人识别。已经提出了许多系统来处理语音别离,主要使用盲源别离〔BSS〕[1]或语音增强技术[2]。当存在足够的传感器并且混合信号满足一些统计独立性时,BSS执行良好。然而,BSS技术需要至少两个传感器,而诸如电信和音频检索的许多应用需要单声道〔一个传感器〕的解决方案。语音增强技术在其中关于目标干扰的一些现有知识可用的特定环境中表现良好。然而,没有系统可以用一个传感器有效地从各种声学入侵中别离语音。

虽然单声道别离仍然是计算系统的一个困难的挑战,听觉系统显示单声道别离的令人印象深刻的能力。ASA是一种感知过程,其中声学混合物被分析并别离成对应于声源的流[3]。已经进行了大量研究来建立单耳CASA系统[4-7]。几乎所有现有系统都将周期性作为主要的分组提示。然而,这些系统的性能有限,并且近年来的进展停滞不前。当前系统的主要问题是它们缺乏处理高频信号的能力。

我们研究单声道语音别离,特别强调高频问题。对于浊音信号,我们注意到听觉系统可以解决在低频范围的前几个谐波,但高次谐波未解决,除非它们比相邻的更强烈[8]。心理物理证据说明了以处理已解决和未解决的谐波的不同机制[9]。因此,根据Bregman[3]的原理,我们的模型采用不同的方法在低频范围和高频范围内别离目标语音。ASA分两个阶段进行:分割〔或分析〕和分组。在分割中,声输入被分解成感觉段,每个感觉段将属于一个源。在分组中,可能对同一来源做出响应的那些分组被分组到一起。受tbis建议的启发,我们的模型在所有频道的两个相应阶段执行隔离。更具体地,对于低频信道,我们的系统基于来自附近信道的响应之间的时间连续性和交叉信道相关性来生成段。通过将这些响应的周期性与目标语音的估计音高进行比拟来对这些段进行分组。另一方面,由于宽带宽的高频信道倾向于响应通常未解决的有声语音的多个谐波。这些高频响应是幅度调制的,并且它们的包络在对应于基频〔PO〕[10]

图1.所提出的系统的示意图

计目标语音的音高轮廓。最后,根据两个心理声学刺激的约束来检查估计音调:I〕精确音调周期应该与目标语音占优势的声道中的响应的周期一致;2〕间距周期应该在时间上平滑变化。

第2节描述整个系统。在第3节中,给出了系统结果和与现有CASA系统的比拟。第4节总结本文。

2.模型描述

我们的模型是一个多级系统,如上图1.所示。下面将给出每个阶段的描述。

2.1外围中级处理以及初始别离

首先,通过外围模型分析声输入,所述外围模型包括具有128个伽马滤波器组和随后的毛细胞转导的耳蜗滤波。该外围处理在20ms长的时间帧中进行,并且在连续的两个之间重叠10ms。最终,输入信号被分解成一组单元。每个时频单元包含特定帧中某个信道的响应。响应的包络通过具有通带[0,1kHz]和18.25ms的Kaiser窗的低通滤波器获得。通过计算各个响应及其包络的相关图〔自相关函数〕来执行中间处理。从总结相关图获得全局音高轮廓。

初始别离在两个步骤中进行。首先,通过基于时间连续性和交叉信道相关性对相邻时间-频率单元进行分组来形成段。通常,段对应于输入信号的分解分量,并且其中大局部位于低频范围中。然后,根据全局音调,将片段分组为对应于目标语音的前台流和对应于侵扰的背景流。在Wang和Brown的振荡相关模型[7]中描述了类似的过程。

2.2目标高音跟踪

首先,根据前景流估计目标语音的音调周期。在每个帧中,前台流中的单元的自相关函数被交换。音调周期是对应于范围[2ms,12.5ms]中的和的最大值的滞后。

图2.“X〞标记从有声话语和“鸡尾酒会〞〔杂乱无章的〕噪声的混合估计的目标话音的音调

文档评论(0)

liuzhouzhong + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档