一种基于麦克风阵列的声源定位算法研究.docx

一种基于麦克风阵列的声源定位算法研究.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

一种基于麦克风阵列的声源定位算法研究

?

?

一种基于麦克风阵列的声源定位算法研究

引言

基于麦克风阵列的声源定位是声学信号处理领域中的一个重要问题。麦克风阵列声源定位技术是指利用空间分布的多路麦克风拾取声音信号,通过对麦克风的多路输出信号进行分析和处理,得到一个或多个声源的位置信息。

麦克风阵列声源定位具有广泛的应用前景。它在民用领域可用于电话会议系统、视频会议系统和可视电话系统中,通过对发声者的定位,实现会议现场声源及外接摄像机的实时跟踪,也可用于语音及说话人识别软件的前端预处理,以拾取高质量的声音信号,提高语音及说话人识别软件的识别率,还可用于助听器等领域[1]。在军事领域,可利用麦克风阵列声源定位技术实现狙击手定位[2],地面或低空声目标的定位与追踪[3]等。

尽管可将用于声纳和雷达系统的波束形成技术引入麦克风阵列,但由于语音信号为宽带信号,具有短时平稳特性,且所处环境还具有高混响,噪声大等特点,这些算法针对语音信号的定位精度非常低,需要对算法进行改进。一般来说,常用的声源定位算法划分为三类[4]:

一是基于波束成型的方法;

二是基于高分辨率谱估计的方法;

三是基于波达时延差(TDOA)的方法。

其中基于波束成形方法通过对麦克风阵列接收信号进行滤波、加权求和,直接控制麦克风阵列指向使波束具有最大输出功率的方向,可在目标源多于一个的条件下对多声源进行定位[5],但存在对初值敏感的问题。另外还需要知道声源和噪声的先验知识,该方法存在计算量大,不利于实时处理等缺点。

基于高分辨率谱估计的方法在理论上可以对声源的方向进行有效估计,但由于该算法是针对窄带信号,因此若要获得较理想的精度,就要付出很大的计算量代价。此外这些算法无法处理高度相关的信号,因此混响会给算法的定位精度带来较大影响[6]。

基于时延估计的方法是利用广义互相关等时延估计算法求出信号到阵列不同麦克风的相对时延,并利用时延信息与麦克风阵列的空间位置关系估计声源位置。该方法计算量小,易于实时实现,近年来得到了高度重视。本文主要采用基于时延估计的方法进行声源定位。

1基于TODA方法的基本原理

利用TDOA进行声源定位可分为两个部分:

首先,通过采用广义互相关方法(GCC)[7]等,并利用平滑相干变换(SmoothedCoherenceTransform,SCOT)、相位变换(PhaseTransform,PHAT)或最大似然(MaximumLikelihood,ML)进行加权,得出声源到两两麦克风之间的时延差。但当定位环境混响或噪声较大时,基于GCC的声源定位算法性能会急剧下降,以致无法实现精确定位。为了消除混响及噪声影响,N.Zotkin提出利用延时累加波束成型技术与SRP-PHAT相结合的声源定位算法来解决混响和噪声的影响[8]。JacobBenesty在文献[9]中提出了利用最小熵方法进行时延估计,其实验结果表明,在同等混响或噪声条件下,其时延估计的准确度优于互相关方法,且更适于小型麦克风阵列。

其次,进行方位估计,即根据时延和麦克风阵列的几何位置估计出声源的位置。利用得到的熵值公式对空间中的最小熵值进行有哪些信誉好的足球投注网站是一个典型的全局优化问题。传统的梯度下降法主要用于单个声源进行空间有哪些信誉好的足球投注网站。但当空间中存在多个声源或噪声、混响较大时,极易陷入局部最优解。尽管离散网格有哪些信誉好的足球投注网站方法占用系统资源较大,不适宜实时定位系统,但可精确获得全局最优解,且易于计算机实现,因而得到广泛应用。本文采用离散网格方法对有哪些信誉好的足球投注网站空间进行离散划分,减小空间域有哪些信誉好的足球投注网站范围,加快有哪些信誉好的足球投注网站速度。

2算法描述

2.1声音信号建模

在多数语音信号处理应用中,由于语音信号具有非平稳性特征,而短时语音信号的时域分布趋于平稳,常常近似为高斯分布进行离散傅里叶变换。如果声音传播满足线性波动方程,则此时声源与麦克风间的声波传播通道可认为是线性系统[10]。在实际的小型房间环境下,由于房间墙壁的反射等原因,需要考虑混响效应。对于N元麦克风阵列系统,假定声源信号为s(t),阵列第nth麦克风的接收信号yn(t)可表示为:

式中:αn为声音空间传播产生的衰减因子;rn(k)和vn(k)表示第nth麦克风因多径效应及噪声产生的冲击响应;“”表示卷积;xn(k)表示麦克风收集到多径声源信息。设定麦克风阵列的第一个单元为参考点;t为未知声源到参考麦克风的传播时间;τn,1为麦克风n与麦克风1的相对时延,其中τ1,1=0。

3实验验证

3.1实验参数设置

为了验证算法的有效性,构建了一个仿真实验环境,并考虑室内噪声、语音传播衰减及混响的影响。实验模拟了4m×6m×3m小型办公室环境下,环境的起始坐标为(-2,-3,

文档评论(0)

186****9898 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档