基于高斯混合模型分类的说话人识别.doc

下载文档 降价啦

52
0
约9.08千字
约 10页
2018-04-13 发布于天津
举报
版权申诉
保障服务

基于高斯混合模型分类的说话人识别.doc

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于高斯混合模型分类的说话人识别

一种新型的与文本相关的说话人识别方法研究周雷，龙艳花，魏浩然（上海师范大学信息与机电工程学院，上海200234）摘要：在与文本相关的说话人识别研究中，既要包含说话人身份的识别，又要包含语音文本内容的识别.本文提出一种基于语音识别的与文本相关的说话人识别方法，从而建立说话人的声纹模型和语音文本模型，与传统的仅建立一种模型的方法相比，该方法能更精确的描述说话人身份信息和语音的文本信息，较好的解决了短时语音样本的识别效果不佳的问题.测试实验表明，和传统与文本相关的说话人识别方法(如DTW、GMM-UBM)相比，由本方法建立的系统虚警概率降低了8.9%，识别性能得到了提高. 关键词：文本相关；说话人识别；语音识别中图分类号：TP391.4 文献标志码：A 1 引言伴随着网络化、信息化时代的到来，传统的以密码为特征的身份认证技术暴露出巨大的弊端，很难满足高安全性和长效安全性的要求.语音是人的自然属性之一，不会丢失或遗忘；说话人发声器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，故声纹信息具有唯一性；此外语音信号容易采集，系统设备的成本低等优势都为说话人识别技术提供了广阔的应用前景. 根据说话人的训练和测试语音文本是否相同，说话人识别可分为与文本无关的和与文本相关的说话人识别.前者识别过程中建立模型需要的语音数据量大,而且单纯依靠说话人声纹信息的识别率低,且存在说话人语音被窃取录制、语音被模仿等风险，在安全性能要求很高的情况下，很难单独使用这项技术进行识别.而与文本相关的说话人识别要求训练和识别的时候使用内容相同的语音文本，仅采用较少的训练和测试语音数据就能达到较高的识别率；同时语音文本内容也作为了识别中一项重要的判定信息，相同文本的语音几乎是不可能被窃取录制，在文本不知情况下，也不能被模仿，安全性能很高，具有很大的实际意义及研究价值 [1]，在说话人识别的多数应用案例中，与文本相关说话人识别占了多数[2]，比如微信近期推出的声纹锁. 现阶段，与文本相关的说话人识别方法主要有基于动态时间规整(Dynamic Time Warping，DTW)[3-4]、高斯混合模型(Gaussian Mixture Model，GMM)[5]和高斯混合-通用背景模型等方法(Gaussian Mixture Model-Universal Background Model，GMM-UBM)[6].文献4采用DTW算法实现了与文本相关的说话人识别，该算法虽然实现起来较简单，但它是基于非统计的匹配方法，鲁棒性能差；文献5在GMM-UBM系统的基础上构建了一个与文本相关的说话人识别系统，并针对训练与测试语音的文本内容固定这个特点做出相应调整，提出了内容相关的通用背景模型这个概念，因为GMM和GMM-UBM是一种统计概率模型，其模型的建立需要统计分析大量的特征样本,因此对于短训练语音的情形容易出现统计失真,从而导致识别性能下降[7-8].针对以上问题，本文提出了一种基于语音识别的与文本相关的说话人识别方法，具体为一方面利用语音识别技术对语音的文本信息进行判定，另一方面利用GMM-UBM方法对语音的说话人身份信息进行判定，两种判定智能结合，让两者的判定结果互相影响，互相制约，较好的解决了短时语音样本的识别效果不佳和系统鲁棒性差的问题. 2 GMM-UBM说话人识别 GMM-UBM也称为高斯混合-通用背景模型,最初由Reynolds成功应用在说话人确认系统中[7].基于GMM-UBM说话人识别系统主要包括语音信号的前端处理和特征提取[9]、UBM模型的训练及说话人模型自适应、测试阶段的似然对数打分等. 2.1 训练阶段训练语音首先需要进行前端处理和特征提取，前端处理主要包括去除静音、去除能量偏移以及消除信道影响等[10]；本文采用的特征参数为:13维的MFCC特征及其一阶和二阶差分.然后，通过最大似然估计的方法训练获得一个与说话人无关的通用背景模型(UBM).UBM其实是一个大型的GMM模型，它的训练数据是各一信道下的所有待识别说话人的语音，用来训练表示与所有说话人均无关的语音特征空间分布.最后与传统的直接基于EM算法训练GMM的方法不同，每个说话人的GMM是通过采用最大后验概率(MAP,Maximum a posteriori)的方法从UBM上自适应得到，从而大大减少了训练时间[11]. 每个说话人的GMM由均值向量、协方差矩阵和混合权重组成，表示为： (1) M是GMM的混合高斯数目,一个混合度为M的GMM概率密度函数是由M个多维高斯分布加权叠加得到，公式如下： (2) 其中，为维语音特征矢量；为