- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
dtw算法简介
第七章-动态时间规整Dynamic Time Wrapping 图1 典型语音识别系统 一个典型的语音识别系统的实现过程如下图: 从图中可以看出,语音识别系统的一般由前端处理(预处理、端点检测)模块、特征提取模块和模式匹配模块等几个模块组成。 本节讨论的动态时间规整法(DTW, Dynamic Time Wrapping)作用于模式匹配这个过程中。 DTW(Dynamic Time Warpping)算法是语音识别中出现较早、较经典的一种算法,它应用动态规划的方法成功解决了语音信号特征参数序列比较时时长不相等的难题。尽管目前大多被HMM模型替代。但在对孤立词的语音识别中,仍然得到广泛应用。 由于在识别过程中,即使同一个人发同一个音时,不仅其持续时间长度会随机地改变,而且各音素的相对时长也是随机变化的。因此在匹配时如果只对特征向量进行线性时间规整,其中的因素就有可能对不准。 DTW算法解决的问题: DTW的核心思想是,把待识别语音的时间轴与参考模式的时间轴,非线性地对应起来。找到一个最优的对应关系,使总失真最小。 为寻找最优,其使用的方法是动态规划(DP)。动态规划是将一个复杂的全局最优化问题转变成许多局部最优化问题,并一步步地进行解决。 DTW算法的核心思想: DTW算法原理 假设参考模板的特征矢量序列 R={R(1),R(2),R(3),…,R(M)}, R(1)为起点语音帧,R(M)为终点语音帧,M为模板所包含的语音帧总数,R(i)为第i 帧的语音特征矢量。 待识别语音特征矢量序列为 T={T(1),T(2),T(3),…,T(N)},N≠M。 T(1) 为起点语音桢,T(N)为终点语音桢,N为待识别信号包含的语音桢总数,T(j)为第j桢的语音特征矢量。 图 2 DTW算法有哪些信誉好的足球投注网站路径 DTW就是要找到一个归正函数,把R和T的时间轴做非线性映射,即在上图中找到一条从(1,1)到(N,M)的最优路径。最优的标准是,以此路径有哪些信誉好的足球投注网站,累计的失真最小。 失真的测度有多种,下面给出典型的失真测度: (1)欧氏距离 D (x,y)={∑|x – y |r}/N, (0≤1≤N-1) -均方误差 -绝对值平均误差 (2)对数频谱距离 V(w)=log(f(ω))-log(g(ω)) D (g,f)={∫|V(w)|r dw}/2π (3)倒谱距离 D (x,y)=∑(c – c )2, (1≤n≤p) r i i cep r -π π (f) (g) n n 几种典型的失真测度: 在此选择欧氏距离为例。 下面给出了两个特征矢量间的欧氏距离的计算公式: 其中 和 为桢 和 对应的特征向量。 由此我们可以计算出任意一对特征向量之间的距离(T中一个,R中一个),进而构造出一个N*M的桢匹配距离矩阵d 其中 表示T(i)和R(j)间的欧氏距离(失真) (1.1) 为了避免DTW算法走不必要的路径,规定算法只能按照下图所示的路径进行有哪些信誉好的足球投注网站。有哪些信誉好的足球投注网站路径的斜率应控制在0.5~2的范围内,同时如果当前格点为(n,m),那么它的前续格点只能是下列三种情况之一: 图3 DTW算法有哪些信誉好的足球投注网站路径约束条件 设 表示从 到 的桢累计距离,此累计距离的计算公式如下: 其中 由下式决定: (1.2) (1.3) 由(1,2)和(1.3)可知,只要知道当前节点的桢匹配距离 和它的前续节点的桢累计距离 便可以得到当前节点的桢累计距离 。得到最优的 后,可以向回推,即可得到最优路径。 为方便计算和观察,也可将桢累计距离列成矩阵D: 其中 表示从(1,1)到(i,j)累计距离的最小值 最终 就是最小的总失真的数值。其中还记录了最优路径的信息。 即可在矩阵前一行的3个元素中找到正确的元素,即找到了前续格点。 依此类推,找到全部格点,即可得到最优路径。 从 开始根据递推公式和约束条件向回推。 DTW算法仿真实例(Matlab): 以下是语言内容相同的两段不同语音: 用DTW算法对两段语音的特征向量序列做匹配,仿真结果如下: 图4 DTW算法Matlab仿真结果
您可能关注的文档
最近下载
- 2024年江苏省南京市中考物理试题卷(含答案解析).docx
- 八年级美术上册5静物画有声教案省公开课一等奖新名师优质课获奖PPT课件.pptx
- 电子鼓hd3中文说明书.pdf
- 2024年江苏省南京市中考数学试题卷(含答案解析).docx
- 通桥(2018)1301-Ⅲ时速250公里、350公里高速铁路无砟轨道(16+24+16)m钢筋混凝土刚构连续梁.pdf
- 2024年武汉市城市建设投资开发集团限公司招聘【221人】公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版.docx
- 12.《玩偶之家(节选)》课件 统编版高中语文选择性必修中册.pptx
- 眼部健康保养.ppt VIP
- 急性一氧化碳中毒诊治专家共识.pptx
- 心内科常见疾病护理常规ppt.pptx
文档评论(0)