- 1、本文档共54页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北邮郭军web有哪些信誉好的足球投注网站第四章概要
* WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC 声学模型—特征抽取 建立声学模型的第一步是确定采用的特征 MFCC特征被证明是有效的 帧尺寸应小于20ms 系数的数量可在8、12、16中间选择 外加能量项 为捕捉声音的时变特性,需加入Delta倒谱特征,设静态倒谱为x(t), Delta倒谱定义为 必要时,还可以Delta倒谱为基础计算二阶差分,即Double Delta倒谱,以此反映静态倒谱变化的加速性质 利用上述特征,每段声音就会被映射为特征空间中大量的点,形成一个点分布 声学模型—点分布的概率建模 GMM是对上述点分布进行建模的理想方法 将特征空间中的样本当作一个整体来建模,而不去区分它们在时间上的先后顺序 尽管一段声音不一定在声学空间形成明显的分布簇,但通过足够的混合分量,它的分布能够得到近似描述 一个D维的声学特征向量x,其概率密度函数p(x)的GMM GMM的参数常用EM算法进行估计,一个训练任务需要估计混合权重πi和分布参数θi={μi,Σi}两套参数,混合度K是一个需要预先确定的值 GMM参数估计的EM算法 给定一组训练数据x1,x2,…,xN,设置参数初始值后,EM算法在E-step和M-step之间交替重复 E-step: 估计各个样本属于各个混合分量的概率,令wij为在当前的参数估计条件下数据xi属于第j个混合分量的概率,则: M-step: 利用所有训练数据计算新的权重、均值和协方差矩阵 语义模型—VSM 语义特征空间由各个声音的描述文档中的词汇支撑 词汇在文档中的顺序无关紧要,重点在于如何将关键字转化为可映射为概念的词汇 VSM 用m×n的词—文档矩阵对于包含词汇t1,t2,…tm和文档d1,d2,…dn的声音描述文档集合建模 每一列代表一个文档,每一行代表一个词 词在各个文档以及整个集合中的权重用TF-IDF表示 TF取fij的二值形式bij,IDF取熵加权的方式 pij = (fij/gi),gi为ti在集合中出现的次数,n为集合中的文档数 语义模型—LSI 通过将词—文档矩阵A向低维空间映射来获取词汇之间潜在的关系 试图通过对词汇的全局应用模式的建模将概念上相近的文档映射为低维空间中相互邻近的点 采用SVD的方法 A = USVT 只取前k个特征值 关于LSI的维数k的实验 当k升至50左右时,LSI的效果已经赶上VSM 在k等于70左右达到最大,分类错误率在VSM基础上降低50%左右 在k等于70到100之间,性能基本保持稳定 超过100后,性能开始缓慢下降 声学空间与语义空间的联系 双向检索(声音?语义/语义?声音)需要建立声学模型和语义模型之间的映射关系 依赖于训练集合中已知的声音及其语义描述之间的关系 在声学空间中,n个训练样本(声音)各有一个GMM,每个GMM对每个训练样本都有一个似然度,构成n×n的似然度矩阵 在语义空间中,每个训练样本(声音的描述文档) 有一个LSI(或VSM)模型 。这n个模型之间的相似度也可以用n×n的矩阵来表示 观察发现上述似然度矩阵和相似度矩阵尽管有相似之处,但却是不同的,不能相互代替 需分别建立声学?语义和语义?声学的联系 声
文档评论(0)