语音识别与语义识别.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

语音识别与语义识别--第1页

声音实际上是一种波

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技

术。语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模

式逐一进行比较,最佳匹配的参考模式被作为识别结果。

目前大多数语音识别技术是基于统计模式的,从语音产生机理来看,语音识别可以分为语音

层和语言层两部分。

当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢

量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)

和支持向量机等语音识别方法。

语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的

计算和音节到字概率的计算。

一个连续语音识别系统大致可分为四个部分:特征提取,声学模型训练,

语言模型训练和解码器。

(1)预处理模块:

对输入的原始语音信号进行处理,滤除掉其中的不重要的信息

以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、

语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信

号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。

(2)特征提取:

语音识别与语义识别--第1页

语音识别与语义识别--第2页

去除语音信号中对于语音识别无用的冗余信息,保留能够反

映语音本质特征的信息,并用一定的形式表示出来。也就是提取出反映

语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。

目前的较常用的提取特征的方法还是比较多的,不过这些提

取方法都是由频谱衍生出来的。Mel频率倒谱系数(MFCC)参数因其良

好的抗噪性和鲁棒性而应用广泛。在sphinx中也是用MFCC特征的。

MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱

用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输

出构成的向量进行离散余弦变换DCT,取前N个系数。

在sphinx中,用帧frames去分割语音波形,每帧大概10ms,

然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧

语音的MFCC特征,用特征向量来表示。

语音识别基础

语音信号的采样和量化

语音信号是一个时间和幅度都连续变化的一维模拟信号而语音识别的过

程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对

其进行数字化,这个过程就是模/数(A/D)转化模/数转化过程要经过采样和量

化两个过程,从而得到时间和幅度上的离散数字信号根据奈奎斯特采样定律,

采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而

且能从采样信号中准确的重构原始信号的波形正常人的发音范围是从40Hz到

340OHz左右,因此在实验中,本文对语音信号的采样频率均为

2语音信号的预加重

语音信号从嘴唇辐射后,高频端大约在800Hz以上有6dB/倍频的衰减因此,在对语音信号进

行分析之前,一般要对语音信号加以提升(预加重预加重的目的是滤除低频干扰,尤其是

语音识别与语义识别--第2页

语音识别与语义识别--第3页

50Hz或者60Hz的工频干扰,提升对语音识别有用的高频部分,使信号的频谱变得平坦,以便

于进行频谱分析或声道参数分析

.3语音信号的加窗处理

为了能对语音信号进行处理,我们可以假

定在IOms一30ms之间语音信号是平稳的,语音频谱特性和语音特征参数恒定

文档评论(0)

137****5455 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档