- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
声纹识别课件.ppt
声纹识别 刘宣缇 石雪娜 唐子淑 声纹识别 1、概述 2、声纹识别系统 3、特征提取 4、模式匹配 5、应用和发展前景 简介 声纹识别(VPR) ,生物识别技术的一种,也称为说话人识别 ,是从说话人发出的语音信号中提取声纹信息。 声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。 原理: 人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。 分类(按任务) (1)说话人辨认(Speaker Identification) (2)说话人确认(Speaker Verification)。 前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题; 而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。 缩小刑侦范围 银行交易 声纹识别分类 分类(按类型) (1)文本相关的(Text-Dependent) (2)文本无关的(Text-Independent) 文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合。 文本无关的声纹识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。 声纹识别系统 声纹识别系统的工作过程一般可以分为两个过程:训练过程和识别过程。 无论训练还是识别,都需要首先对输入的原始语音信号进行预处理。 声纹识别系统框图 识别结果 训练 识别 训练还是识别 建立模型 声学模型 模式匹配 特征提取 语音信号 预处理 采样、量化、预加重和加窗等处理 声纹识别——特征提取 特征提取是把一帧原始语音信号转化为N维的特征矢量,运算步骤如下: 语音 信号 加窗 (如海明窗) 计算频谱 (FFT) MEL分段 (三角滤波) 对数变换 log( ) 余弦反变换 cos( ) 特征提取过程 (Process of feature extraction) 语音 信号 加窗 (如海明窗) 计算频谱 (FFT) MEL分段 (三角滤波) 对数变换 log( ) 余弦反变换 cos( ) 语音 信号 加窗 (如海明窗) 计算频谱 (FFT) MEL分段 (三角滤波) 对数变换 log( ) 余弦反变换 cos( ) 语音 信号 加窗 (如海明窗) 计算频谱 (FFT) MEL分段 (三角滤波) 对数变换 log( ) 余弦反变换 cos( ) 语音 信号 加窗 (如海明窗) 计算频谱 (FFT) MEL分段 (三角滤波) 对数变换 log( ) 离散余弦变换 DCT 声纹识别——建立声学模型 VQ矢量量化 矢量量化是把所有矢量(设为M 个) 进行归类, 设矢量Xi ( i = 0 ~ M - 1) 到距离最近的矢量中心Yj ( j = 0 ~ N - 1) 的量化误差为 则量化M 个矢量的平均量化误差为 通过LBG聚类算法找出能使D 达到最小的矢量中心集合。这个集合构成了一套码本,它是M 个矢量在N 维空间最佳分布的体现,即说话人发音的声学特征的体现。所有说话人码本的集合构成声学模型。 声纹识别——模式匹配 模式匹配识别判断的目的:获取表现说话人个性的特征参数的基础上,将待识别的特征参数模板或模型与训练学习时得到的模板或模型库作相似性匹配,得到特征模式之间的相似性距离度量,并选取适当的距离度量作为门限值,从而识别判断出可能结果中最好的结果。 声纹识别——模式匹配 在模式匹配中常用的方法有: (1)模板匹配方法:主要用于
文档评论(0)