语音识别中LPC特征矢量提取的研究与实现.pdfVIP

下载本文档

3
0
约2.24万字
约 11页
2017-05-27 发布于广东
举报
版权申诉

语音识别中LPC特征矢量提取的研究与实现.pdf

1、本文档共11页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音识别中LPC特征矢量提取的研究与实现.pdf

语音识别中LPC 特征矢量提取的研究与实现 1 2 3 覃爱娜，王靖琰，崔阳 1 中南大学应用电子技术系，长沙 (410083) 2 中南大学信息与通信工程系，长沙 (410083) 3 中南大学电子信息科学与技术系，长沙 (410083) E-mail：wjycsu@163.com 摘要：本文介绍了基于统计模式匹配方法的语音识别的基本概念，介绍了线性预测编码 (LPC)特征矢量的提取，矢量量化，并对原型系统的实现方法作了阐述。关键词：语音识别 LPC 特征矢量 1．引言最近几年来，语音识别技术正在逐渐走向实用阶段。语音识别的第一步需要提取语音特征矢量。根据不同的识别任务和提取方法，有多种语音特征参数，如线性预测编码系数LPC 参数、倒谱系数CEP、Mel频域倒谱系数MFCC等等，本文讨论线性预测编码系数LPC参数 [1] 矢量的提取。 2 ．语音识别系统及其声学特征语音识别是人机通信的重要组成，计算机语音识别过程与人对语音识别处理过程基本上是一致的。基于统计模式匹配方法的语音识别系统如图1所示：图1 语音识别系统框图该方法包括几个步骤: a.特征向量提取：对输入语音进行分帧处理，提取特征向量用来定义测试模式(test pattern) 。谱分析技术包括线性预测编码技术，离散傅立叶技术方法等等。 b.训练阶段：对词汇表中的词条按其特征矢量序列通过一定的模型进行训练，结果作为模板存入模板库中。 c.识别阶段：将如数语音的特征矢量序列依次与模板库中的每一个模板进行相似度比较，将相似度最高者作为识别结果物出。其中声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征有：线性预测系数LPC ：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干 -1- 时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS ，即可得到线性预测系数LPC 。对LPC 的计算方法有自相关法(德宾Durbin法) 、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP 、反射系数等等。倒谱系数CEP ：利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换IDFT就可得到倒谱系数。对LPC倒谱(LPCCEP)，在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。 Mel倒谱系数MFCC和感知线性预测PLP ：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。 MFCC 的计算首先用 FFT 将时域信号转化成频域，之后对其对数能量谱用依照