- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第9章 语音处理;9.1.1 语音识别模型
语音识别模型从功能步骤上可以分为三步:
1.从语音中提取特征获取语音向量;
2.将语音向量进行解码;
3.经过解码获取结果。
在语音识别中,关键的技术就是对于语音向量的训练解码过程,主要包括了声学模型的构建、语音字典的构建以及语言模型的构建。整个语音识别典型模型如下图所示。
;9.1.1 语音识别模型
1.声学特征提取:
对于一段语音从输入开始,在特征提取阶段主要完成如下操作:
(1)格式转换:当语音输入之后,进行模电转换,将模拟信号转变为数字信号。
(2)音频预处理:主要是去除首尾端的静音部分,从而降低对后续步骤造成的干扰。
(3)分帧处理:把声音文件切开成一小段一小段,称之为一帧。在分帧操作时,并不是简单的随意将音频文件切开,而是通过移动窗函数的方式来实现,让每一帧音频并不是独立存在的而是互相关联的。
(4)特征提取:常用的的一种提取方法是梅尔频率倒谱系数(MFCC)方法来获得声学特征
;9.1.1 语音识别模型
2.声学模型(Acoustic Model,AM)
把语音输入转换成语言发音的一个声音元素,然后将这些音素转为可以识别的字母的模型。
3.字典
字典是用于判断连续声音元素表达的具体是哪一个单词。
4.语言模型
语言模型的作用是在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列,
;9.1.2 语音合成模型
语音合成模型从功能步骤可以分为两步:一是文本处理,二是语言合成。
1、文本处理
把文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息。
2、语言合成
依据音素序列来生成语音。在生成语言的过程中,主要有三类方法:
拼接法:从事先录制的大量语音中,选择所需的基本单位拼接而成
参数法:根据统计模型来产生每时每刻的语音参数,主要是基频、共振峰频率等。然后把这些参数通过声码器(vocoder)生成波形。
基于波形的统计合成系统:采用神经网络算法直接预测合成语音波形的每一个采样点。
;对于语音识别的目标就是听懂人员语言,最基础的一类语言就是数字。在本节中,我们将创建一个简单的???文数字识别器。
9.2.1 数据预处理
在训练数据集上,我们选择spoken_numbers_pcm数据集。该数据集是许多人阅读0~9这十个数字英文的音频,分男声和女声。
对于数据的预处理主要是对音频文件的声学特征的提取,采用最常用的梅尔频率倒谱系数(MFCC)方法
;9.2.2 构建识别模型
由于输入数据只是某一个数字的读音,是单个声音元素的处理,不需要额外使用声学模型和字典。对于训练网络使用LSTM循环神经网络。
9.2.3 训练模型
;9.2.4 评估模型
任意输入一个数据集中的文件,通过模型识别出听到的数字。
结果是准确的,能够正确的识别出数字为“8”。
;9.3.1 数据预处理
在数据集上,我们使用公开的清华大学连续普通话数据库(THCHS-30),是清华大学录制的30小时中文语音库。
数据集的处理,主要包括了原始数据的获取、生成词汇表、转化词编码等步骤:
1.原始数据获取:数据集中包括了训练用的音频文件和对应的文本文件,需要将文本文件作为语音文件的标签进行一一对应。
2.生成词汇表:从训练数据中提取出所有的单词,并统计各个单词出现的次数,生成使用的词汇表。
3.生成词编码:根据词汇表进行编码
;9.3.2 构建识别模型
由于涉及识别问题,考虑使用卷积神经网络。
;9.3.3 训练模型
数据集数据对构建的识别模型进行训练,并在完成一定训练过程后,保存模型。训练的时间较长。
9.3.4 评估模型
使用测试数据集中的数据对模型进行测试
;9.4.1 Tacotron模型
语言合成是一个复杂工程,包括文本分析、音频合成等步骤,涉及多种技术难点。谷歌作为人工领域的先行者,为后来人提供了各种丰富的模型和工具,例如Tacotron模型。
Tacotron是一个端到端的语言合成模型,模型的核心结构是一个具有Attention机制的Seq2Seq模型,整体结构模型结构如下图
;9.4.1 Tacotron模型
Tacotron模型可以分为编码器、解码器以及后处理网络三大模块。
编码器模块:主要是完成将输入文本进行编码转化。首先将文本进行数据处理后转换为one-hot向量作为编码器的输入。编码器中,将向量经过一个预处理模块(pre-net)进行处理后,然后输入到特征提取模块(CBHG模块)中,最后从CBHG模块中得到原始文本的一个表示序列。
解码器模块:实现从输入序列中学习得到音频幅度采样,网络结构中主要包括了pre-net、Attention-RNN以及Decoder-RNN三部分。
后处理网络模块:将解码器输出的线性幅度采样,进行处理并使用Gri
您可能关注的文档
- 2020届高考政治一轮复习必修二第3单元第六课中国共产党领导的多党合作和政治协商制度(共34张PPT).pptx
- 人教版七年级上1.3.2有理数减法.ppt
- 鲁教版五四制七年级英语上Unit 1 What does he look like Section A (1a-1c) 教学课件 .ppt
- 贯彻落实创新驱动发展战略-打造广西九张创新名片(得分90分).doc
- 新目标九年级Unit 5 What are the shirts made of Section B 同步质量检测试卷(附答案).docx
- 课题3 走进化学实验室学案设计(无答案).doc
- 人教部编版历史八上第15课-北伐战争【课件】.pptx
- 湘教版地理七上第一章第二节我们怎样学地理.ppt
- 外研版九年级英语上册Module 5 Unit 3 Language in use. 学案设计(无答案).doc
- 九年级物理《第十三章力和机械》复习总结课件.ppt
最近下载
- 2024年上海市普通高校招生本科艺术甲批次平行段院校专业组投档分数线美术与设计类.pdf VIP
- 2024入团共青团基础知识题库(含答案).docx
- 2024年在线网课学习课堂《健康管理科研思维训练(杭州师大 )》单元测试考核答案.pdf
- 2024年中国河南国际合作集团有限公司人员招聘考试题库及答案解析.docx
- 《骆驼祥子》读书分享PPT课件(精选图文).pptx
- 汉长安城遗址总体规划.pptx
- 欠钱不还的法院起诉书.docx VIP
- GB-T 10125-2012 人造气氛腐蚀试验 盐雾试验.pdf
- 新人教版七年级上册生物全册教案(2024年秋季新版教材).docx
- pcs-9651_080885技术和使用说明书.pdf
文档评论(0)