- 1、本文档共34页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音信号处理 第一页,共34页。 10.1 概述 自动说话人识别(Automatic Speaker Recognition 简称ASR),又称为话者识别或声纹识别,是一种自动识别说话人的过程。说话人识别和语音识别的区别在于,它不注重包含在语音信号内的文字符号以及语意内容信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,以达到识别说别说话人的目的。 按其最终完成的任务可以分为两类: * 自动说话人确认( Automatic Speaker Verification,简称ASV):确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,只做“是”和“不是”的判决。 * 自动说话人辨认(Automatic Speaker Identification,简称ASI):必须辨认出待识别的语音是来自待考察人中的哪一个,有时还要对这个人以外的语音做出拒绝的判决。 第二页,共34页。 10.2 说话人识别方法和系统结构 说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。图10-1是说话人识别系统的结构框图,它由预处理、特征提取、模式匹配和判决等几大部分组成。 第三页,共34页。 10.2.1预处理 包括对输入计算机的语音数据进行端点检测、预加重、加窗、分针等。 10.2.2说话人识别特征的选取 在说话人识别系统中特征提取是最重要的一环,特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征。 在理想情况下,选取的特征应当满足下述准则: 能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。 易于从语音信号中提取 不易被模仿 尽量不随时间和空间变化 第四页,共34页。 如果把说话人识别中常用的参数加以简要归类,可划分为以下几类: 线性预测参数及其派生参数 语音频谱直接导出的参数 混合参数 其他鲁棒性参数 上表是日本人Matui和Furui在1990年针对倒谱特征和基音特征所作的比较实验结果 所用特征 误识率/(%) 倒谱 差值倒谱 基音 差值基音 倒谱与差值倒谱 倒谱、差值倒谱与基音、差值基音 9.43 11.81 74.42 85.88 7.93 2.89 第五页,共34页。 10.2.3特征参量评估方法 F比:在给定一种识别方法后,识别的效果主要取决于特征参数的选取。对于某一维单个的参数而言,可以用F来表征它在说话人识别中的有效性。 F越大表示越有效,即不同说话人的特征量的均值分布的离散程度分布得越散越好;而同一个人的越集中越好。 第六页,共34页。 10.2.3特征参量评估方法 D比:把F比的概念推广到多维,用以衡量多维特征矢量在说话人识别系统中的有效性。F比没有考虑到特征矢量中各维参数之间的相关性。 定义两个协方差矩阵,即说话人间的协方差矩阵B和说话人内协方差矩阵W, 定义对多维特征矢量的可分性测度——散度 ,即D比为: 第七页,共34页。 10.2.4模式匹配方法 概率统计方法 通过对稳态特征(基音、声门增益、低阶反射系数等)的统计分析,利用均值、方差等统计量和概率密度函数进行分类判决。优点:不用对特征参量在时域上进行规整,适合与文本无关的说话人识别。 动态时间规整方法(DTW) 将识别模板与参考模板进行时间对比,按照某种距离测度得出两个模板之间的相似程度。常用的分法:基于最近邻原则的动态时间规整。 矢量量化方法(VQ) 将每个人的特定文本训练成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。优点:速度快,识别精度不低。 第八页,共34页。 10.2.4模式匹配方法 隐马尔科夫模型方法(HMM) 为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出矩阵;识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。优点:无需时间规整,精度高;缺点:训练耗时较大。 人工神经网络方法(ANN) 人工神经网络在某种程度上模拟了生物的感知特性,是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。缺点:训练时间长、动态规整能力弱、网络随说话人数码的增加时可能大到难以训练的程度。 第九页,共34页。 10.2.5说话人识别中判别方法和阈值的选择 加快系统响应的判别分法:多门限判决、预分类技术。 说话人确认系统的阈值选择:确认错误由误拒率(False Rejection, FR)和误受率
您可能关注的文档
- 语言表达要连贯.ppt
- 语言表达连贯课用.ppt
- 语言表达连贯补写句子课件.ppt
- 语言运用一口语交际开场白建议.ppt
- 语言规范与创新专题二.ppt
- 语言表达得体之尊称与谦称.ppt
- 语言运用补写句子初认识.ppt
- 语言连贯公开课.ppt
- 语言表达能力训练.ppt
- 语言连贯得体.ppt
- 2024揭阳市揭西县河婆街道社区工作者考试真题及答案汇总.docx
- 2024聊城市临清市八岔路镇社区工作者考试真题及答案汇总.docx
- 2024菏泽市东明县东明集镇社区工作者考试真题及答案汇总.docx
- 2024永州市零陵区石岩头镇社区工作者考试真题及答案汇总.docx
- 2024荆门市东宝区子陵铺镇社区工作者考试真题及答案汇总.docx
- 2024滨州市邹平市好生街道社区工作者考试真题及答案汇总.docx
- 2024重庆市渝北区礼嘉街道社区工作者考试真题及答案汇总.docx
- 2024聊城市高唐县琉璃寺镇社区工作者考试真题及答案汇总.docx
- 2024德州市乐陵市市中街道社区工作者考试真题及答案汇总.docx
- 2024十堰市张湾区花果街道社区工作者考试真题及答案汇总.docx
文档评论(0)