网站大量收购闲置独家精品文档,联系QQ:2885784924

人工智能安全:原理与实践 课件 第14章 语音合成原理与实践(14.1语音合成原理简介).pptx

人工智能安全:原理与实践 课件 第14章 语音合成原理与实践(14.1语音合成原理简介).pptx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

李剑博士,教授,博士生导师网络空间安全学院lijian@bupt.edu.cnJanuary23,2025第14章语音合成原理与实践14.1语音合成原理简介

本章介绍语音合成指的是一种能够利用给定输入合成语音的技术,即文本到语音(Text-to-Speech,TTS)或语音到语音转换(VoiceConversion,VC)方法。本章主要介绍了人工智能合成音频技术、Tacotron模型、梅尔谱图、长短记忆网络、混合注意力机制等,在实践环节主要介绍基于Tacotron2的语音合成系统。

1.人工智能合成音频技术介绍2022年江苏卫视跨年晚会上,一身优雅红色裙装的邓丽君与周深一起演绎了《小城故事》,《漫步人生路》,《大鱼》3首歌,让不少观众直呼感动。

1.人工智能合成音频技术介绍人工智能合成音频技术是一种深度伪造技术,它可以克隆一个人的声音,并生成该人从未说过的话。具体来说,语音合成指的是一种能够利用给定输入合成语音的技术,即文本到语音(Text-to-Speech,TTS)或语音到语音转换(VoiceConversion,VC)方法。TTS方法可以从给定的输入文本中合成自然的说话人声音,而VC方法则通过修改源说话人的音频波形,使其听起来像目标说话人的声音,同时保持语音内容不变。

1.人工智能合成音频技术介绍音合成技术主要包括两个步骤:文本分析和声音合成。文本分析阶段涉及将输入的文本转换为语音合成的内部表示,包括文本规范化、词性标注、语义解析等。声音合成阶段则是将这些内部表示转换为声音波形,最终输出为人类可听的语音。目前主流的方法是基于深度学习的语音合成方法。

1.人工智能合成音频技术介绍语音合成流水线包含文本前端(TextFrontend)、声学模型(AcousticModel)和声码器(Vocoder)三个主要模块。语音合成基本流程图:

2.Tacotron模型介绍在人工智能合成音频技术领域,目前应用较为广泛的是Tacotron系统。2017年3月,Google提出了一种新的端到端的语音合成系统:Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其提供给Griffin-Lim重建算法直接生成语音。

2.Tacotron模型介绍Tacotron后来研究出了改进版Tacotron2。Tacotron2系统去除了CBHG模块,更改为使用长短期记忆网络(LongShort-TermMemory,LSTM)和卷积层来代替CBHG。

3.梅尔谱图梅尔谱图通过模拟人耳对频率的感知方式,将音频信号从线性频率尺度转换为梅尔频率尺度,从而更好地反映人类对不同频率的感知。它主要用于处理音频信号,帮助分析和识别音频内容。

3.梅尔谱图梅尔谱图生成过程:?(1)预处理音频信号?:首先,音频信号会被采样,并分成多个重叠的短时间帧。每个帧通常持续20-40毫秒,并对每一帧施加窗函数以减少频谱泄露。?(2)短时傅里叶变换(STFT)?:对每一帧进行傅里叶变换,得到频谱图。这一步将信号从时间域转换为频率域,表示为频率和时间的二维数组。?(3)计算功率谱?:从STFT的复数矩阵中计算功率谱,即将每个频率成分的幅度平方,得到频率成分的能量。?(4)应用梅尔滤波器组?:使用梅尔滤波器组将功率谱从线性频率尺度转换到梅尔频率尺度。这些滤波器是三角形的,覆盖频谱的不同频率区域,每个滤波器的中心频率根据梅尔刻度均匀分布。

4.长短期记忆网络在语音合成领域,由于输入语句的某处发音通常决定于其上下文内容,因此建模时需要关注长时间跨度的序列信息。卷积神经网络属于前向神经网络,即是单向的输入到输出映射,无法很好地获取时序相关信息。因此在建模具有时间跨度的序列特征时,通常使用的结构是RNN。但一般的RNN结构,由于梯度消失问题,能捕获到的上下文内容是有范围限制的,故使用长短期记忆网络LSTM。LSTM网络内部的核心构件记忆细胞单元如图14.5所示。记忆细胞单元内部由胞状态(CellState)、输入门(InputGate)、输出门(OutputGate)、遗忘门(ForgetGate)这四个部件构成。

4.长短期记忆网络LSTM网络内部的核心构件记忆细胞单元如图所示。记忆细胞单元内部由胞状态(CellState)、输入门(InputGate)、输出门(OutputGate)、遗忘门(ForgetGate)这四个部件构成。

5.混合注意力机制注意力机制是一种人类大脑信号处理方法,被人类大脑用来快速筛选关键信息,它可以提高人类对信息处理的效率与准确性。注意力机制也常被用于深度学习中的序列到序列模型中,使得模型能够关注到输

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档