语音合成系统研究.doc

下载文档 降价啦

7
0
约9.87千字
约 14页
2017-01-08 发布于贵州
举报
版权申诉
保障服务

语音合成系统研究.doc

1、本文档共14页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语音合成系统研究语音合成系统研究

电子知识语音合成系统(2)语音合成(7) 　　语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术　　语音合成技术　　语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。和语音识别相比，语音合成的技术相对说来要成熟一些，并已开始向产业化方向成功迈进，大规模应用指日可待。　　语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统)，如磁带录音机，是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”。　　文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这也涉及到自然语言理解的问题。下图显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列，再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理，例如分词、字音转换等，以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术，能按要求实时合成出高质量的语音流。因此一般说来，文语转换系统都需要一套复杂的文字序列到音素序列的转换程序，也就是说，文语转换系统不仅要应用数字信号处理技术，而且必须有大量的语言学知识的支持。　　TTS的基本结构　　语言学处理　　在文语转换系统中起着重要的作用，主要模拟人对自然语言的理解过程——文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后两部分所需要的各种发音提示。　　韵律处理　　为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。　　声学处理　　根据前两部分处理结果的要求输出语音，即合成语音。　　参数合成　　在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980)，只要精心调整参数，这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk(1987)。但是经过多年的研究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。　　波形拼接　　自八十年代末期至今，语言合成技术又有了新的进展，特别是基音同步叠加(PSOLA)方法的提出(1990)，使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高，并且基于PSOLA方法的合成器结构简单易于实时实现，有很大的商用前景。 IBIS模型是一种基于V/I曲线对I/O BUFFER快速准确建模方法，是反映芯片驱动和接收电气特性一种国际标准，它提供一种标准文件格式来记录如驱动源输出阻抗、上升/下降时间及输入负载等参数，非常适合做振荡和串扰等高频效应计算与仿真。 IBIS本身只是一种文件格式，它说明在一标准IBIS文件中如何记录一个芯片驱动器和接收器不同参数，但并不说明这些被记录参数如何使用，这些参数需要由使用IBIS模型仿真工具来读取。欲使用IBIS进行实际仿真，需要先完成四件工作：获取有关芯片驱动器和接收器原始信息源；获取一种将原始数据转换为IBIS格式方法；提供用于仿真可被计算机识别布局布线信息；提供一种能够读取IBIS和布局布线格式并能够进行分析计算软件工具。 IBIS模型优点可以概括为：在I/O非线性方面能够提供准确模型，同时考虑了封装寄生参数与ESD结构；提供比结构化方法更快仿真速度；可用于系统板级或多板信号完整性分析仿真。可用IBIS模型分析