语音识别分析的关键技术分析1900字 .docx

语音识别分析的关键技术分析1900字 .docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

语音识别分析的关键技术分析综述

1.1语音前端信号处理

所谓的语音前端信号处理就是对原始的语言数据进行相关的处理,其目的就在于将源头的前端语音信号进行更加清晰的细化和相关特征的提取。其核心处理关键点有:

语音活动的检测:语音活动的检测它们的作用是通过一个特定的模块、检测到语音信号在一起点位置、把自身需要的语音添加到那里,而不必对这些添加到那里进行删减和去除。所谓非语音是指静态或者噪音。

降噪:降噪就是将生活中一些提取目标之外的声音通过降噪比的手段方式,让目标声音更加的清晰明了,从而提高识别效率。常用的降噪为自适应LMS和维纳滤波等。

消除回声:一些空旷或山涧等地方,声音的传播会受到物体的碰撞,从而造成回声,因此要考虑回声对其影响。自适应算法是一种可以调节滤波器的参数,来模拟由于这种滤波而产生的信道环境。计算得到回波信号的形态和其路线是否被去掉。

混响抵消:一般混响抵消方法主要有:逆滤波法、以及声波的波束的进一步深度研究等。

声音定位:这是关键点的重要核心部分,麦克风阵列用于犯罪嫌疑人对话的大致的位置,并为其下一识别阶段做准备。

1.2声学模型的建立

所谓的声学模型就是把语音信号进行简单的语音特征与之相关的句子相关联起来。例如有一段音频数据,需要识别出该音频数据对应的文字一样,这里的音频数据就是观测变量,而文字就是隐藏变量。这就是我们通常所说的隐马尔可夫模型,用来解决发音和文本之间的关系。我们常用到的声学模型就是隐马尔可夫模型,如图1所示。其作用就是为公安识别声音的精准度打好了铺垫。

①W?W?E

-—||

-—

x??xx?

图1隐马尔科夫模型

HMM声学模型一般被应用于语音识别系统,如图3:

W

W

GMM

转移概率

mH,w。

0W2a

W?··w-)WHMM

观测概率

(发射概率)

GMMGMMGMMGMM

语音特征

图3GMM-HMM的声学模型

换句话说,GMHMM语音识别只是停留在语音学习浅层的一面,而无法深入其本质特征。它也不能获得其它信息之间的高阶算法的关联性。DNNHMM运用DNN强大的学习能力以改善识别度。如图4:

转移概率

转移概率

a%w%

w

观察概率

(发射概率)

WM

h(M-1)

h(1)

W?

V

wamu2w2-

aynya?w?

a

a

a

aw1%-

h(M)

wn-y

HMM

DNN

语音特征

图4DNN-HMM

GMMHMM模型的优点是具有较强的计算能力和处理能力。DNNHMM模型大大提高了识别率,但它需要更高的硬件计算能力。因此,选型时可结合实际情况进行相关处理和应用调整。

1.3语音识别特征提取方法

在语音识别中其特征的相关参数有其自身的要求在里面,其具体的要求有:可以将语音信号转换成语音特征向量,并由计算机处理。同时,语音识别特征提取的结果能够满足听觉感知的要求范围和相应的特性,它可以增强语音信号,在一定程度上减少噪声等因素的干扰常用的特征提取方法如下:

1.3.1线性预测分析(LPC)

它的基本原理就是利用说话者的声音发声特点,再通过其它的参考模型进行自身信号的检测与分析从而进一步推导出下一步。说白了就是用一个模型来表示

被分析的信号,也就是把信号看成一个模型的输出,这样就可以用模型参数来描述信号。通常模型只包含有限不为零的极点。

1.3.2感知线性预测系数(PLP)

所谓的感知线性预测系数的特征提取方法就是通过电脑的计算从而运用到频谱分析当中去,将原有的地信息语音信号经过处理之后可以用人耳听觉模型从而利于抗噪语音相应的特征提取等,其可以带入到公安业务中,运用到相应环境中的抗噪处理后可以大大的缩短了犯罪语音证据的提取。从而推动侦查破案率的提升。

1.3.3Tandem特征和Bottleneck特征

序列性和全局性特征是利用神经网络提取手段来获得特征值的两种途径。特征提取以点对点输出模式模型为基础,及对神经网络对输出层中所有相应类型节点之间的后概率矢量进行降阶,并与MFCC或PLP功能拼接。后者通过一种独立的神经网络结构来实现,它们可以被称为特异性提取器。但是一个隐藏层中的节点数量比其他隐藏层中的节点数量少得多。因此称为瓶颈层,输出特征是其主要特征之一。对神经网络提取的输出

文档评论(0)

文档之家 + 关注
实名认证
内容提供者

文档创作者

1亿VIP精品文档

相关文档