- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ASR的组件翻译汇编
ASR ComponentsASR系统由几个组件组成,为了确保有一个健壮的可实现的系统,每个组件都要精心的设计本节介绍了这些组件背后的理论,以便更好地理解整个ASR系统的设计与开发过程。前端前端几乎是每个ASR系统的第一个组件, 是信号进入系统的第一个过程。该组件负责处理接收到的语音信号。输入信号在到达前端之前,已经通过了一个声学环境,信号可能已经受到了不同的影响,如加性噪声或房间混响。因此,需要一个合适的信号处理,以提高信号对可能变异源的抑制并且提取译码器所使用的语音信号特征。特征提取(看书)我们通常把语音信号转换成含有声学特征的频率谱。这就得通过把信号压缩到N特征频率谱来实现信号的转换,N的大小取决于信号的持续时间。因此,为了对信号进行适当的特征提取,就需要在特征提取前受限对信号进行适当的采样和处理。特征提取过程是识别语音信号消息的关键步骤。虽然语音波形包含多个特征,但是,最重要的特征是频谱包络。频谱包络包含发音者的主要特征,是语音识别中语音分析的核心。通过傅里叶变换,线性预测编码(LPC)或者带通滤波器组可以得到频谱包络。ASR最常用的语音特征是梅尔频率倒谱系数(MFCCs),当然也有LPC系数,线谱频率(LSFs)等其他特征。这些大量的特征集都是为了捕获语音音素识别所需的足够频谱信息。MFCCMFCCs可以被看作是模拟信号转换成的39个数字特征向量。这个转换过程需要执行几个步骤才能获得这些向量。图3.1描述了从语音信号输入到得到这些特征所需的一系列步骤。由于人类语言的本质,语音信号随着频率的增加而衰减。此外,语音信号经过声道时会下降6 db。因此,需要对语音信号进行预加重,这意味着需要给语音信号加一个预加重滤波器,也就是高通滤波器。这既增加了语音信号的高频振幅,同时又减少了低频分量。通过预加重,原始语音信号x,在时间n的新样本由下面的差分表达式给出。a通常取0.9。一旦信号通过预加重,我们就会对信号每隔10ms分20—30ms的帧。采样率越高,模拟快速语音变化的效果越好。为避免每帧之间的信息丢失,我们采用重叠帧。这个过程称为加窗,并且是为了减少把信号分割成小窗时的影响。ASR最常用的窗函数是汉明窗。函数如下:W是大小为N的窗,α的值为0.54。下一步是利用离散傅里叶变换计算功率谱,使用快速傅里叶变换算法来减少计算的需求。然后对功率谱使用梅尔滤波组,使功率谱映射到梅尔标度范围,以获得梅尔加权谱mel-weighted spectrum。使用梅尔标度的原因是,它是一个非线性的,接近人类的非均匀听觉系统。梅尔滤波器组由一些重叠的三角带通滤波器组成,这些三角带通滤波器的中心频率在梅尔刻度上是等距的。这些刻度在1000HZ之前是线性增长的,之后是成对数增长的。下一步,对从梅尔滤波器组得到的数据进行对数压缩,以得到对数能量系数。然后这些系数通过离散余弦变换,压缩成一组低价的系数,也就是众所周知的梅尔倒谱或倒谱向量。Ci是第i个MFCC,M是倒谱系数的个数,Xk代表了第k个梅尔滤波器的对数能量系数。然后对这个向量进行归一化,是为了消除因传输信道而发生的扭曲。此外,通常计算倒频谱序列的一阶和二阶差分,获得delta-cepstrum和delta-delta cepstrum。进一步得到delta-energy and delta-delta energy 参数,功率谱的一阶和二阶差分也添加到特征向量中。这就是一个ASR的39个特征向量,13 个倒谱系数,13 delta values和13 delta-delta values。语言模型Language Models and N-grams在前端处理完输入的语音波形后,ASR生成一系列的符号代表一段语音中可能的音素。为了把这些音素组成单词,语音识别系统使用语言建模。建模一系列的规则,这些规则规定每个词是如何与其他词相关的。例如,一组单词不能随意放在一起;他们必须遵循一种语言的一套语法句法规则。语音处理的这一部分是必要的,是为了在进一步的语音理解阶段确定话语消息的意思。为找出单词间的相互关联性,大多数ASR系统使用概率框架。一般来说,系统试图确定哪个单词是必威体育精装版收到的是基于一组之前收到的单词。例如,谁将会是下面这个句子的下一个单词呢?I would like to make a collect. . .可能会是“call”、“phone-call”或“international”等。为了确定句子中最可能的单词,ASR需要使用概率密度函数P(W)。其中W代表一个单词序列w1 ,w2……wn。概率密度函数会根据一个单词序列在语料库出现的可能性给它赋一个概率值。依旧使用上一个例子,“call”这个词出现“I would like to make a collect”,是由:用数学表达式表示上式我
您可能关注的文档
- 《自然之道》.ppt
- 《第二章》整章---沪科版八年级全册(新)物理.ppt
- 《芦花荡》PPT.ppt
- ANSYS理论和应用探讨.ppt
- AppPush之后如何降低App卸载率?.docx
- AOA_大Ann细Ann.ppt
- 《芦花荡》ppt.ppt
- APP测试经验.docx
- APP.ppt
- APQP培训教材新.ppt
- 第12课 大一统王朝的巩固 课件(20张ppt).pptx
- 第17课 君主立宪制的英国 课件.pptx
- 第6课 戊戌变法 课件(22张ppt).pptx
- 第三章 物态变化 第2节_熔化和凝固_课件 (共46张ppt) 人教版(2024) 八年级上册.pptx
- 第三章 物态变化 第5节_跨学科实践:探索厨房中的物态变化问题_课件 (共28张ppt) 人教版(2024) 八年级上册.pptx
- 2025年山东省中考英语一轮复习外研版九年级上册.教材核心考点精讲精练(61页,含答案).docx
- 2025年山东省中考英语一轮复习(鲁教版)教材核心讲练六年级上册(24页,含答案).docx
- 第12课近代战争与西方文化的扩张 课件(共48张ppt)1.pptx
- 第11课 西汉建立和“文景之治” 课件(共17张ppt)1.pptx
- 唱歌 跳绳课件(共15张ppt内嵌音频)人音版(简谱)(2024)音乐一年级上册第三单元 快乐的一天1.pptx
文档评论(0)