语音信号处理 第4版 课件 第8章:说话人识别.pptx

语音信号处理 第4版 课件 第8章:说话人识别.pptx

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

南京邮电大学通信与信息工程学院第8章说话人识别

说话人识别方法和系统结构基于矢量量化的说话人识别系统基于动态时间规整的说话人确认系统基于高斯混合模型的说话人识别系统基于深度学习的说话人识别系统

8.1说话人识别方法和系统结构—概述自动说话人识别(AutomaticSpeakerRecognition,ASR):是一种自动识别说话人的过程,和语音识别的区别在于,它不注重包含在语音信号中的文字符号以及语义内容信息,而是着眼于包含在语音信号中的个人特征。目的:从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。两类任务:(1)自动说话人确认(AutomaticSpeakerVerification,ASV),系统确认是否为一个人的身份。(2)自动说话人辨认(AutomaticSpeakerIdentification,ASI),系统必须辨认出识别语音是来自待考察的N个人中的哪一个。特点:(1)语音按说话人划分,因而特征空间的界限也应按说话人划分;(2)应选用对说话人区分度大,而对语音内容不敏感的特征参量;(3)由于说话人识别的目的是识别出说话人而不是所发的语音内容,故采取的方法也有所不同,包括用以比较的帧和帧长的选定、识别逻辑的制定等。

8.1说话人识别方法和系统结构—概述说话人识别系统的结构框如图所示,主要由预处理、特征提取、模式匹配和判决等几大部分组成。建立系统的两个阶段·训练阶段:系统的每一个使用者说出若干训练语料,系统根据这些训练语料,通过训练学习建立每个使用者的模板或模型参数参考集。·识别阶段:把从待识别说话人说出的语音信号中提取的特征参数,与在训练过程中得到的参考参量集或模型模板加以比较,并且根据一定的相似性准则进行判定。

8.1说话人识别方法和系统结构—说话人识别特征的选取特征选取的准则:(1)能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。(2)易于从语音信号中提取。(3)不易被模仿。(4)尽量不随时间和空间变化。说话人识别中常用的参数:(1)线性预测参数及其派生参数通过对线性预测参数进行正交变换得到的参量,其中阶数较高的几个方差较小,这说明它们实质上与语句的内容相关性小,而反映了说话人的信息。另外,由于这些参数是对整个语句平均得到的,所以不需要进行时间上的归一化,因此可用于与文本无关的说话人识别。目前,由它推导出的LPC倒谱系数和差值倒谱系数是最常用的短时谱参数,并获得了较好的识别效果。

8.1说话人识别方法和系统结构—说话人识别特征的选取(2)语音频谱直接导出的参数语音短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的差别。而短时谱随时间变化,又在一定程度上反映了说话人的发音习惯,因此,由语音短时谱中导出的参数可以有效地用于说话人识别中。常用的参数包括功率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。现已证实基音周期及其派生参数携带有较多的个人信息,但基音容易被模仿,且不稳定,最好与其他参数组合使用。(3)混合参数为了提高系统的识别率,或是在没有把握辨明关键参量的情况下,相当多的系统采用了混合参量构成的矢量。如将“动态”参量(对数面积比与基频随时间的变化)与“统计”分量(由长时间平均谱导出)相结合,还有将逆滤波器谱与带通滤波器谱结合,或者将线性预测参数与基音轮廓结合等参量组合方法。如果组成矢量的各参量之间的相关性不大,则效果会很好,因为它们分别反映了语音信号中不同的特征。

8.1说话人识别方法和系统结构—说话人识别特征的选取(4)其他鲁棒性参数包括Mel频率倒谱系数,以及经过噪声谱减或者信道谱减的去噪倒谱系数等。综上所述,常用于说话人识别的特征参数有:语音短时能量、基音周期(现已证实基音周期及其派生参数携带有较多的个人信息)、语音短时谱或BPFG特征(包括14~16个BPF)、线性预测系数LPC、共振峰频率及带宽、LPC倒谱等,以及反映这些特征动态变化的线性回归系数等,其他的特征参数还包括鼻音联合特征、谱相关特征、相对发音速率特征、基音轮廓特征等,另外,也可以对这些特征进行变换加工,如K-L变换等,而得到加工后的二次特征。其中,倒谱特征和基音特征是较常用的特征,并获得了较好的识别效果。

8.1说话人识别方法和系统结构—特征参量评价方法F比原理:识别的效果主要取决于特征参数的选取,同一说话人的不同的语音会在参数空间映射出不同的点,若对同一说话人这些点分布比较集中,而对不同说话人的分布相距较远,则选取的参数就是有效的。因此可以选取两种分布的方差之比(F比)作为有效性准

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档