复杂背景下声纹识别系统的研究方法综述.docVIP

下载本文档

6
0
约7.01千字
约 12页
2019-07-12 发布于北京
举报
版权申诉

复杂背景下声纹识别系统的研究方法综述.doc

1、本文档共12页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 1 复杂背景下声纹识别系统的研究方法综述　　【摘要】声纹识别是生物特征识别领域的一个重要分支。它采用语言数据自动地鉴定测试者身份。本文研究复杂背景下的声纹识别系统的设计与实现，首先，利用正交小波滤波器组来对信号进行预滤波，对语言信号的每个频率段进行细粒度去噪，提取出各频段小波系数，重构出语音信号；其次，在特征提取阶段，利用倒谱法计算出基音周期参数，通过Mel滤波器组将小波系数转换成Mel倒谱系数（MFCC），将得出的两种参数组成一个特征矢量作为声纹特征；最后声纹识别阶段，每一个说话人都由一个GMM表示，计算出特征矢量序列的每个似然函数，找到其中最大的说话人模型，即判定为说话人。　　【关键词】声纹识别；小波滤波器组；基音周期；Mel倒谱系数；高斯混合模型　　1.引言　　说话人声纹识别可以看作是语音识别的一种。它和语音识别一样，都是通过对所收到的语音信号进行处理，提取相应的特征或建立相应的模型，然后据此作出判断。而区别在于它并不注意语言信号中的语义内容，而是希望从语音信号中提取出人的特征。从这点上说，说话人声纹识别是企求挖掘出包含在语音信号中的个性因数，而语音识别是企求从不同人的词语信号中寻找相同因素。在处理方法上，说话人声纹识别力图强调不同人之间的差别，而语音识别则力图对不同人说话的差别加以归一化。世界范围内，声纹识别技术正广泛应用于诸多领域。截止到去年年初，声纹识别产品的市场占有率为15.8%，仅次于指纹识别和掌形识别。　　现有文献中用于说话人识别的特征许多是建立在短时频谱基础上。它们主要有Mel频率倒谱系数（MFCC），LPC倒谱系数，差值倒谱等。在声纹识别技术中，目前研究最多的方法有：模板匹配法、概率模型法和人工神经网络法。Soong等人将矢量量化技术用于与文本无关的说话人是被系统。Rosenberg等人利用子词单元构成的隐马尔科夫模型（HMM），建立了一个说话人确认系统。Delesby等人利用径向基函数神经网络方法进行说话人识别[1]。我国的北京大学以迟惠生为领导的说话人识别研究团体、清华大学以杨行峻为领导的研究团体以及中国科学院声学所和东南大学也在这个方面取得了非常优秀的科研成果.从国内外文献看来，有的着重距离测度，但是大多数向几种方法如HMM、GMM和ANN混合的方向发展。　　2.声纹识别的基本原理及相关算法　　2.1基本原理　　声纹识别的基本原理如图1所示，主要包括两个阶段，即训练和识别阶段。　　训练阶段，系统的每个使用者说出若干训练语句，系统据此建立每个使用者的模板或模型参数。识别阶段，由待识人说的语音经特征提取后与系统训练时产生的模板或模型参数进行比较。在主说话人的辨认中，取与测试音匹配距离最小的说话人模型所对应的说话人作为识别结果；在说话人确认中，则通过判断测试音与所声称的说话人的模型的匹配距离是否小于一定闭值做出判断。　　2.2语音信号的预处理　　在语音信号特征提取之前，首先要进行的一个环节就是对输入语音信号的预处理，主要包括预滤波、预加重、加窗分帧以及语音端点检测等过程。本文就以涉及到的预滤波进行描述，预滤波在本文中是通过小波滤波器组来实现。预滤波器必须是一个带通滤波器，其上、下截止频率分别是和。对于绝大多数语音处理中，，，采样率为。　　2.3声纹特征提取　　2.3.1概述　　提取说话人特征就是把原来语音中的冗余信息去掉，找到我们关注的语音特征信息，是一个减小数据量的过程。从说话人语音信号中提取的特征参数应满足以下准则：对外部条件具有鲁棒性（如：说话人的健康状况和情绪，方言和别人模仿等）；能够长期地保持稳定；易于从语音信号中进行提取；与其他特征不相关。　　2.3.2典型声纹特征参数提取算法　　声纹特征参数主要有以下几种：基音周期、短时过零率、线性预测（LPC）、线性预测倒谱系数（LPCC）、Mel频率倒谱系数（MFCC）、以及经过噪声谱减或者信道谱减的去噪倒谱系数等，每一种特征参数都有其相应的提取算法。在声纹特征提取这一点，本文将采用基音周期和Mel频率倒谱混合的参数作为特征参数。　　线性预测（LPC）方法　　语音线性预测的基本思想是：利用过去的样值对新样值进行预测，然后将样值的实际值与其预测值相减得到一个误差信号，显然误差信号的动态范围远小于原始语音信号的动态范围，对误差信号进行量化编码而达到最小，可以确定唯一的一组线性预测系数。目前主流算法有Durbin递推算法、Levinson递推算法、舒尔（schur）算法和个性算法[2][3]。由于LPC分析是基于全极点模型的假设，所以它对于声道响应含有零点的清音和浊音和鼻音描述不确切。　　线性预测倒谱系数（LPCC）　　倒谱特征是用于说话人个性特征和说话识别人识别的最有效的特征之一。语音信号是