声音识别基础知识精要.ppt

下载文档 降价啦

2
0
约1.58千字
约 15页
2017-03-29 发布于湖北
举报
版权申诉
保障服务

声音识别基础知识精要.ppt

1、本文档共15页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

声音识别基础知识精要

声音识别基础知识 2015级电子与通信工程董雪声音识别原理语音输入训练识别结果声音识别的过程声音的预处理：振幅归一化、预加重、样本分割、加窗特征提取：特征参数可以是能量、基音频率、共振峰值等，较常见的是线性预测倒谱系数LPCC、Mel倒谱系数MFCC。二者均为将声音信号变换到倒谱域上。幅值归一化幅值归一化就是把每一个采样值除以本段信号的幅值。即：其中，是原始信号，是归一化后的信号，n是信号长度。预加重处理目的：对高频部分进行加重，增加语音的高频分辨率。实现方式：一般通过传递函数的一阶FIR高通数字滤波器来实现预加重，其中，为预加重系数，其值介于0.9到1.0之间。加窗处理预加重处理后，进行加窗分帧处理。原理：由于发声器官的惯性运动，可以认为在一小段时间内（一般为10~30ms）语音信号近似不变，即语音信号具有平稳性。这样，可以把语音信号分为一些短段（分析帧）。语音信号的分帧是采用可移动的有限长度窗口进行加权的方法实现。一般每秒33~100帧。加窗处理虽采用连续分段，但一般采用交叠分段的方法使帧与帧之间平滑过渡，保持连续性。前帧与后帧的交叠部分称为帧移，帧移与帧长的比值一般取0~1/2。常用窗：一种是矩形窗：另一种是汉明窗：矢量量化基本原理：先把信号序列的每K个连续样点分成一组，形成N维欧式空间中的一个矢量，然后对此矢量进行量化。矢量量化就是把一个K维模拟矢量X映射为另一个k维量化矢量，其数学表达式为：Y=Q(X)。矢量量化系统通常可以分解为两个映射的乘积：Q=ab。a是编码器，将输入矢量X映射为信道符号集中的一个元；b是译码器，它是将信道符号集映射为码书中的一个码字Yi。矢量量化失真测度：要对落在二维空间的模拟矢量X=(a1，a2)进行量化，要先选择一个合适的失真测度，而后利用最小失真原则，分别计算用量化矢量Yi替代X所带来的失真。其中最小失真值所对应的那个量化矢量Yi中某一个就是模拟矢量X的重构矢量。通常把所有N个量化矢量构成的集合称之为码书或码本。码书中的矢量称之为码字或码矢。矢量量化常用的失真测度有如下几种：（1）平方失真测度：（2）绝对误差失真测度：（3）加权平方失真测度：其中，W为正定加权矩阵，T为矩阵转置符号。矢量量化失真度必须具有如下特点：（1）在主观评价上具有意义，即小的失真对应好的主观质量评价。（2）数学上易于处理，能导致实际的系统设计。（3）可计算并保证平均失真 D=E[d(X, Q(X))]存在。（4）采用的失真测度应使系统容易用硬件实现。基于Mel和矢量量化的方法声音预处理取帧长，每帧作FFT变换。用Mel带通滤波器进行滤波，得到一组系数。将每个滤波器的输出取对数，得到相应频带的对数功率谱利用反离散余弦变换得到MFCC 矢量量化特征匹配基于MFCC和GMM的方法声音预处理取帧长，每帧作FFT变换把上述功率谱映射到梅尔频标，再用M个梅尔带通滤波器滤波将每个滤波器的输出取对数，得到相应频带的对数功率谱利用离散余弦变换得到谱的幅值，即MFCCs 建立混合高斯模型GMM 期望最大化声音识别此外，还有：基于MFCC和PNN的声音识别基于SBC和HMM的声音识别谢谢！ * *