- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练
?
?
基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练
自2006年以来,深度学习已经成为机器学习的一个重点研究领域,而且现已在许多方面取得了卓越进展。而在语音识别领域,基于深度学习的方法也随即应用而生,特别是在声学建模上,深度神经网络(DeepNeuralNetwork,DNN)已经能够替代高斯混合模型(GaussianMixtureModel,GMM),并和隐马尔科夫模型(HiddenMarkovModel,HMM)结合而推出了DNN-HMM混合模型,在实际应用中取得了很高的识别率[1]。当前的关键词检测(Spokentermdetection,STD)系统通常是利用大词汇量连续语音识别器(largevocabularycontinuousspeechrecognition,LVCSR)来对有哪些信誉好的足球投注网站语音解码产生关键词假设,再通过将输入语音转换为文本形式;基于此,关键词检测系统就可以利用文本有哪些信誉好的足球投注网站的一些技术,但其与文本有哪些信誉好的足球投注网站不同的则是关键词检测多会利用lattice来表示语音识别结果[2-3]。在语音识别中,常常都是采用不同的区分性训练准则来减小语音识别的词错误率(WordErrorRate,WER),著名的区分性训练准则主要有MCE(MinimumClassificationError)[4]、MMI(MaximumMutualInformation)[5]、MPE(MinimumPhoneError)[6]和MWE(MinimumWordError)[6]。
在关键词检测任务中,关注的重点只是预定义的关键词是否被检测到。至于与目标关键词无关的词,针对其所获的检测结果却并不重要。Fu等人提出利用非均匀MCE准则,并开展了运用至语音识别中的尝试[7-8]。Weng等人针对传统GMM-HMM模型利用非均匀MCE准则来推进关键词检测的研究,也就是通过在声学建模阶段利用非均匀MCE准则来进行区分性训练,提高了关键词检测系统的性能[9]。研究表明,区分性训练可以改善DNN系统的性能[10]。Chen等人在非均匀准则的基础上,利用基于keyword-boostedsMBR(state-levelminimumBayesrisk)准则来训练关键词检测中的DNN-HMM模型,同时再通过在声学模型训练阶段对定义的关键词进行加重来提高模型对关键词的建模能力,结果即取得了ATWV(ActualTermWEightedValue)1.7%-6.1%的提升[11]。
在此,立基于对传统GMM-HMM模型之上,相较于非均匀sMBR准则而言,非均匀MCE准则能够利用AdaBoost来调整关键词权重系数,而非均匀sMBR准则的权重系数却是固定的,因而非均匀MCE准则要比非均匀sMBR准则获得更佳效果[12]。从这一结论出发,本文即将文献[9]中所提出的非均匀MCE准则引入到关键词检测的DNN声学建模阶段,在DNN的参数调整过程中,通过对关键词进行一定程度的侧重来提高DNN-HMM模型对关键词的建模能力。
1基于非均匀MCE准则的关键词DNN声学模型训练
1.1DNN-HMM声学模型
DNN-HMM模型利用DNN替代GMM提供LVCSR中HMM状态的后验概率。特别的,表示语句r时刻t的观测变量,DNN对HMM状态s的输出可以通过softmax激活函数来计算:
(1)
其中,表示状态s对应的输出层的激活值,识别器通常利用伪对数似然来计算后验概率:
(2)
式中,表示从训练数据中计算得到的状态s的先验概率。
网络训练可以通过利用反向传播算法来优化给定的目标函数而获得实现。更经常地,DNN-HMM声学模型主要利用交叉熵(cross-entropy)作为目标函数,优化则主要利用随机梯度下降方法来进行处理和操作展开。
1.2基于MCE准则的区分性训练
区分性训练中,MCE训练准则是常用的一种。该准则以最小化经验错误率为目标[4],在语音识别中,令Xr(r=1,…R)为训练集中的R个句子,Wr为句子Xr所对应的标注,W是特定的假设空间,对某个假设W的判别函数可以定义为:
(3)
其中,和分别表示声学模型和语言模型得分,表示声学模型因子,误分类度量通常采用:
(4)
误分类度量的符号反映了给定声学模型参数,句子的分类正确或者错误程度。经过对上式运用sigmoid函数进行平滑,目标损失函数可以表示为:
(5)
其中,表示sigmoid函数,目标函数表示针对训练集的经验损失。
1.3关键词检测的非均匀MCE准则
非均匀准则的区分性训
文档评论(0)