第9章语音处理.pptx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第9章 语音处理;9.1.1 语音识别模型 语音识别模型从功能步骤上可以分为三步: 1.从语音中提取特征获取语音向量; 2.将语音向量进行解码; 3.经过解码获取结果。 在语音识别中,关键的技术就是对于语音向量的训练解码过程,主要包括了声学模型的构建、语音字典的构建以及语言模型的构建。整个语音识别典型模型如下图所示。 ;9.1.1 语音识别模型 1.声学特征提取: 对于一段语音从输入开始,在特征提取阶段主要完成如下操作: (1)格式转换:当语音输入之后,进行模电转换,将模拟信号转变为数字信号。 (2)音频预处理:主要是去除首尾端的静音部分,从而降低对后续步骤造成的干扰。 (3)分帧处理:把声音文件切开成一小段一小段,称之为一帧。在分帧操作时,并不是简单的随意将音频文件切开,而是通过移动窗函数的方式来实现,让每一帧音频并不是独立存在的而是互相关联的。 (4)特征提取:常用的的一种提取方法是梅尔频率倒谱系数(MFCC)方法来获得声学特征 ;9.1.1 语音识别模型 2.声学模型(Acoustic Model,AM) 把语音输入转换成语言发音的一个声音元素,然后将这些音素转为可以识别的字母的模型。 3.字典 字典是用于判断连续声音元素表达的具体是哪一个单词。 4.语言模型 语言模型的作用是在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列, ;9.1.2 语音合成模型 语音合成模型从功能步骤可以分为两步:一是文本处理,二是语言合成。 1、文本处理 把文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。 2、语言合成 依据音素序列来生成语音。在生成语言的过程中,主要有三类方法: 拼接法:从事先录制的大量语音中,选择所需的基本单位拼接而成 参数法:根据统计模型来产生每时每刻的语音参数,主要是基频、共振峰频率等。然后把这些参数通过声码器(vocoder)生成波形。 基于波形的统计合成系统:采用神经网络算法直接预测合成语音波形的每一个采样点。 ;对于语音识别的目标就是听懂人员语言,最基础的一类语言就是数字。在本节中,我们将创建一个简单的???文数字识别器。 9.2.1 数据预处理 在训练数据集上,我们选择spoken_numbers_pcm数据集。该数据集是许多人阅读0~9这十个数字英文的音频,分男声和女声。 对于数据的预处理主要是对音频文件的声学特征的提取,采用最常用的梅尔频率倒谱系数(MFCC)方法 ;9.2.2 构建识别模型 由于输入数据只是某一个数字的读音,是单个声音元素的处理,不需要额外使用声学模型和字典。对于训练网络使用LSTM循环神经网络。 9.2.3 训练模型 ;9.2.4 评估模型 任意输入一个数据集中的文件,通过模型识别出听到的数字。 结果是准确的,能够正确的识别出数字为“8”。 ;9.3.1 数据预处理 在数据集上,我们使用公开的清华大学连续普通话数据库(THCHS-30),是清华大学录制的30小时中文语音库。 数据集的处理,主要包括了原始数据的获取、生成词汇表、转化词编码等步骤: 1.原始数据获取:数据集中包括了训练用的音频文件和对应的文本文件,需要将文本文件作为语音文件的标签进行一一对应。 2.生成词汇表:从训练数据中提取出所有的单词,并统计各个单词出现的次数,生成使用的词汇表。 3.生成词编码:根据词汇表进行编码 ;9.3.2 构建识别模型 由于涉及识别问题,考虑使用卷积神经网络。 ;9.3.3 训练模型 数据集数据对构建的识别模型进行训练,并在完成一定训练过程后,保存模型。训练的时间较长。 9.3.4 评估模型 使用测试数据集中的数据对模型进行测试 ;9.4.1 Tacotron模型 语言合成是一个复杂工程,包括文本分析、音频合成等步骤,涉及多种技术难点。谷歌作为人工领域的先行者,为后来人提供了各种丰富的模型和工具,例如Tacotron模型。 Tacotron是一个端到端的语言合成模型,模型的核心结构是一个具有Attention机制的Seq2Seq模型,整体结构模型结构如下图 ;9.4.1 Tacotron模型 Tacotron模型可以分为编码器、解码器以及后处理网络三大模块。 编码器模块:主要是完成将输入文本进行编码转化。首先将文本进行数据处理后转换为one-hot向量作为编码器的输入。编码器中,将向量经过一个预处理模块(pre-net)进行处理后,然后输入到特征提取模块(CBHG模块)中,最后从CBHG模块中得到原始文本的一个表示序列。 解码器模块:实现从输入序列中学习得到音频幅度采样,网络结构中主要包括了pre-net、Attention-RNN以及Decoder-RNN三部分。 后处理网络模块:将解码器输出的线性幅度采样,进行处理并使用Gri

您可能关注的文档

文档评论(0)

yyons2019 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档