第9章语音处理.pptx

下载文档

1
0
约2.49千字
约 16页
2019-09-19 发布于福建
举报
版权申诉
保障服务

第9章语音处理.pptx

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第9章语音处理;9.1.1 语音识别模型语音识别模型从功能步骤上可以分为三步： 1.从语音中提取特征获取语音向量； 2.将语音向量进行解码； 3.经过解码获取结果。在语音识别中，关键的技术就是对于语音向量的训练解码过程，主要包括了声学模型的构建、语音字典的构建以及语言模型的构建。整个语音识别典型模型如下图所示。 ;9.1.1 语音识别模型 1.声学特征提取：对于一段语音从输入开始，在特征提取阶段主要完成如下操作：（1）格式转换：当语音输入之后，进行模电转换，将模拟信号转变为数字信号。（2）音频预处理：主要是去除首尾端的静音部分，从而降低对后续步骤造成的干扰。（3）分帧处理：把声音文件切开成一小段一小段，称之为一帧。在分帧操作时，并不是简单的随意将音频文件切开，而是通过移动窗函数的方式来实现，让每一帧音频并不是独立存在的而是互相关联的。（4）特征提取：常用的的一种提取方法是梅尔频率倒谱系数（MFCC）方法来获得声学特征 ;9.1.1 语音识别模型 2.声学模型（Acoustic Model，AM）把语音输入转换成语言发音的一个声音元素，然后将这些音素转为可以识别的字母的模型。 3.字典字典是用于判断连续声音元素表达的具体是哪一个单词。 4.语言模型语言模型的作用是在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列， ;9.1.2 语音合成模型语音合成模型从功能步骤可以分为两步：一是文本处理，二是语言合成。 1、文本处理把文本转化成音素序列，并标出每个音素的起止时间、频率变化等信息。 2、语言合成依据音素序列来生成语音。在生成语言的过程中，主要有三类方法：拼接法：从事先录制的大量语音中，选择所需的基本单位拼接而成参数法：根据统计模型来产生每时每刻的语音参数，主要是基频、共振峰频率等。然后把这些参数通过声码器(vocoder)生成波形。基于波形的统计合成系统：采用神经网络算法直接预测合成语音波形的每一个采样点。 ;对于语音识别的目标就是听懂人员语言，最基础的一类语言就是数字。在本节中，我们将创建一个简单的???文数字识别器。 9.2.1 数据预处理在训练数据集上，我们选择spoken_numbers_pcm数据集。该数据集是许多人阅读0~9这十个数字英文的音频，分男声和女声。对于数据的预处理主要是对音频文件的声学特征的提取，采用最常用的梅尔频率倒谱系数（MFCC）方法 ;9.2.2 构建识别模型由于输入数据只是某一个数字的读音，是单个声音元素的处理，不需要额外使用声学模型和字典。对于训练网络使用LSTM循环神经网络。 9.2.3 训练模型 ;9.2.4 评估模型任意输入一个数据集中的文件，通过模型识别出听到的数字。结果是准确的，能够正确的识别出数字为“8”。 ;9.3.1 数据预处理在数据集上，我们使用公开的清华大学连续普通话数据库（THCHS-30），是清华大学录制的30小时中文语音库。数据集的处理，主要包括了原始数据的获取、生成词汇表、转化词编码等步骤： 1.原始数据获取：数据集中包括了训练用的音频文件和对应的文本文件，需要将文本文件作为语音文件的标签进行一一对应。 2.生成词汇表：从训练数据中提取出所有的单词，并统计各个单词出现的次数，生成使用的词汇表。 3.生成词编码：根据词汇表进行编码 ;9.3.2 构建识别模型由于涉及识别问题，考虑使用卷积神经网络。 ;9.3.3 训练模型数据集数据对构建的识别模型进行训练，并在完成一定训练过程后，保存模型。训练的时间较长。 9.3.4 评估模型使用测试数据集中的数据对模型进行测试 ;9.4.1 Tacotron模型语言合成是一个复杂工程，包括文本分析、音频合成等步骤，涉及多种技术难点。谷歌作为人工领域的先行者，为后来人提供了各种丰富的模型和工具，例如Tacotron模型。 Tacotron是一个端到端的语言合成模型，模型的核心结构是一个具有Attention机制的Seq2Seq模型，整体结构模型结构如下图 ;9.4.1 Tacotron模型 Tacotron模型可以分为编码器、解码器以及后处理网络三大模块。编码器模块：主要是完成将输入文本进行编码转化。首先将文本进行数据处理后转换为one-hot向量作为编码器的输入。编码器中，将向量经过一个预处理模块（pre-net）进行处理后，然后输入到特征提取模块（CBHG模块）中，最后从CBHG模块中得到原始文本的一个表示序列。解码器模块：实现从输入序列中学习得到音频幅度采样，网络结构中主要包括了pre-net、Attention-RNN以及Decoder-RNN三部分。后处理网络模块：将解码器输出的线性幅度采样，进行处理并使用Gri