声音识别基础知识精要.ppt

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
声音识别基础知识精要

声音识别基础知识 2015级电子与通信工程 董雪 声音识别原理 语音输入 训练 识别 结果 声音识别的过程 声音的预处理:振幅归一化、预加重、样本分割、加窗 特征提取:特征参数可以是能量、基音频率、共振峰值等,较常见的是线性预测倒谱系数LPCC、Mel倒谱系数MFCC。二者均为将声音信号变换到倒谱域上。 幅值归一化 幅值归一化就是把每一个采样值除以本段信号的幅值。即: 其中, 是原始信号, 是归一化后的信号,n是信号长度。 预加重处理 目的:对高频部分进行加重,增加语音的高频分辨率。 实现方式:一般通过传递函数 的一阶FIR高通数字滤波器来实 现预加重,其中, 为预加重系 数,其值介于0.9到1.0之间。 加窗处理 预加重处理后,进行加窗分帧处理。 原理:由于发声器官的惯性运动,可以认为在一小段时间内(一般为10~30ms)语音信号近似不变,即语音信号具有平稳性。这样,可以把语音信号分为一些短段(分析帧)。语音信号的分帧是采用可移动的有限长度窗口进行加权的方法实现。一般每秒33~100帧。 加窗处理 虽采用连续分段,但一般采用交叠分段 的方法使帧与帧之间平滑过渡,保持连 续性。前帧与后帧的交叠部分称为帧移 ,帧移与帧长的比值一般取0~1/2。 常用窗: 一种是矩形窗: 另一种是汉明窗: 矢量量化 基本原理:先把信号序列的每K个连续样点分成一组,形成N维欧式空间中的一个矢量,然后对此矢量进行量化。矢量量化就是把一个K维模拟矢量X映射为另一个k维量化矢量,其数学表达式为:Y=Q(X)。 矢量量化系统通常可以分解为两个映射的乘积:Q=ab。a是编码器,将输入矢量X映射为信道符号集 中的一个元 ;b是译码器,它是将信道符号集 映射为码书中的一个码字Yi。 矢量量化 失真测度:要对落在二维空间的模拟矢量X=(a1,a2)进行量化,要先选择一个合适 的失真测度,而后利用最小失真原则,分别计算用量化矢量Yi替代X所带来的失真。 其中最小失真值所对应的那个量化矢量Yi中某一个就是模拟矢量X的重构矢量。通常把所有N个量化矢量构成的集合称之为码书或码本。码书中的矢量称之为码字或码矢。 矢量量化 常用的失真测度有如下几种: (1)平方失真测度: (2)绝对误差失真测度: (3)加权平方失真测度: 其中,W为正定加权矩阵,T为矩 阵转置符号。 矢量量化 失真度必须具有如下特点: (1)在主观评价上具有意义,即小的失真对应好的主观质量评价。 (2)数学上易于处理,能导致实际的系统设计。 (3)可计算并保证平均失真 D=E[d(X, Q(X))]存在。 (4)采用的失真测度应使系统容易用硬件实现。 基于Mel和矢量量化的方法 声音预处理 取帧长,每帧作FFT变换。 用Mel带通滤波器进行滤波,得到一组系数。 将每个滤波器的输出取对数,得到相应频带的对数功率谱 利用反离散余弦变换得到MFCC 矢量量化 特征匹配 基于MFCC和GMM的方法 声音预处理 取帧长,每帧作FFT变换 把上述功率谱映射到梅尔频标,再用M个梅尔带通滤波器滤波 将每个滤波器的输出取对数,得到相应频带的对数功率谱 利用离散余弦变换得到谱的幅值,即MFCCs 建立混合高斯模型GMM 期望最大化 声音识别 此外,还有: 基于MFCC和PNN的声音识别 基于SBC和HMM的声音识别 谢谢! * *

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档