深度学习语音合成技术研究.pdf

下载文档

0
0
约1.02万字
约 13页
2025-02-25 发布于湖北
举报
版权申诉
保障服务

深度学习语音合成技术研究.pdf

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

深度学习语音合成技术研究

作者：张小峰谢钧罗健欣俞璐

来源：《计算机时代》2020年第09期

摘要：语音合成在人机交互中扮演着重要角色，伴随着深度学习的发展，语音合成也进入

新的发展阶段。文章对基于深度学习的语音合成系统进行研究，总结分析深度学习语音合成特

点，并详细介绍四个深度学习语音合成系统。这四个系统包含了单说话人、多说话人和任意说

话人的语音合成，分析这些系统可以学习基于深度学习语音合成系统的原理，为研究人员提供

重要的参考价值。

关键词：语音合成;生成式语音合成;端到端语音合成;迁移学习

中图分类号：TP183

文献标识码：A

文章编号：1006-8228（2020）09-24-05

Researchondeeplearningspeechsynthesistechnology

ZhangXiaofeng，XieJun，LuoJianxin，YuLu

（CommandandContmlEngineeringCollege，ArmyEngineeringUniversityofPLA，

Nanjing，Jiangsu210007，Chin）

Abstract：Speechsynthesisplaysanimportantroleinhuman-machineinteraction.Withthe

developmentofdeeplearning，speechsynthesishasenteredanewstage.Thispaperstudiesdeep

leamingbasedspeechsynthesissystems，summarizesandanalyzesthecharacteristicsofdeep

learningspeechsynthesis，andintroducesindetailfourdeeplearningbasedspeechsynthesis

systems.Analyzingthesesystemscanlearnthetheoryofdeeplearningspeechsynthesissystems，

providingresearcherswithimportantreference.

Keywords：speechsynthesis;generativespeechsynthesis;endtoendspeechsynthesis;transfer

learning

0引言

语音合成也叫文本转语音，是将文本转化成自然语音的技术，在人机沟通之间扮演着重要

角色。

早期语音合成方法主要有拼接法[1]和参数法[]。拼接法通过从事先录制的语音中选择所需

基本单元拼接合成语音。拼接法最大限度保留了原始发音人音色，自然度和清晰度都很高。参

数法是数据驱动的语音合成方法，有声学模型和声码器两部分。声学模型将文本特征映射到声

学特征，声码器根据声学模型的输出重构语音波形。

拼接法和参数法一般要求建模人员同时具有声学、语言学等知识，这提高了语音合成研究

的难度。深度学习中常见的语音合成方法是端到端语音合成，直接建立起从文本到语音的合

成，简化了人为对中间环节的干预，降低了语音合成的研究难度。

本文首先介绍几种常见基于深度学习的语音合成系统，然后介绍Wavenet[3]Tacotron-

1[4]、Tacotron-2[5]和基于迁移学习多说话人语音合成系统[6]。

1相关语音合成系统

DeepVoice-1[7]和DeepVoice-2[8]将深度学习引入传统语音合成各个模块中，比如文本到

音素模块、预测时长模块和波形合成模块等。DeepVoice-1是单说话人语音合成系统，一次只

能合成单说话人语音，该系统优势是合成语音速度较快，比Wavenet至少快400倍。Deep

Voice-2引入说话人嵌入矢量合成多说话人语音，训练时，将说话人编码嵌入到系统中训练。

合成时，调整说话人编码就可以合成不同说话人语音。

Char2Wav[9]是Bengio等人提出的基于深度学习的端到端语音合成系统，该系统有阅读器

和声码器两部分。阅读器由编码器和解码器组成，

您可能关注的文档

文档评论（0）

智洲云帆 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

深度学习语音合成技术研究.pdf