- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 语音合成
第六章 语音合成(Speech Synthesis) 6.2 语音合成方法 3、规则合成法 6.2.2 语音合成系统的特性 三种合成系统的区别 6.3 文语转换系统( Text-to-Speech ) * * 第六章 语音合成 6.1 概述 6.2 语音合成方法 6.3 TTS合成技术 6.1 概述 目的:让机器说话,达到一定的音质与可懂度 语音合成与声码器合成:参数来源,存储、传输 关键性能:正确的读音(多音字、轻重等),自然度 应用前景:已有(报站、校对),将来(人机对话) 汉语与语音合成:汉语特点,四声 一. 语音信号的波形合成(录音合成技术) 采用数字存储技术存储基本的语音信息。 在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,生成高自然度的语句,这就是波形拼接的语音合成方法。为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩。 6.2语音合成技术方法 录音 wav 回放 语音 压缩编码 直接录放流程 语音库 (语音单元) 语音的波形 编码 输入语音 挑选 组合 回放 合成语音 一、波形合成方法 二. 语音信号的参数合成 根据语音产生的数学模型,利用短时平稳性,提出每帧语音信号的参数,这些参数经编码后组成一个语音参数库。输出时,从语音参数库中取出相应的参数,利用语音产生的数学模型恢复语音。共振峰合成和线性预测合成是该类合成技术中的重要方法。 三. 语音信号的规则合成 将任意文本转换成声音的系统。包括语言学和声学处理。合成的词汇不是事先确定。常见的就是文语转换合成技术 text-to-speech (TTS)。 系统中存储的是音素的声学参数,以及由音素组成音节、由音节组成词、由词组成句子的规则;控制音调、轻重音等韵律的各种规则。 给出待合成的字母或文字后,根据语义规则和语音规则,确定每个字的音素的组成和句子的低层结构。为每一个词、每一个音节确定重音等级和语句结构及语调,其中包括各种停顿等,这样,文字串就变成了代码串。 声学处理就利用规则将代码串转换成连续的语音波。 6.2.1 三种语音合成方法的比较 1、波形合成法 特点: 简单 / 小词汇(报站器) 实现过程: 录音、编辑、合成, 优点:合成音质好; 缺点:存储空间大 2、参数合成法 特点: 可以合成大词汇(字典) 实现过程: 保存LPC、共振峰等参数。 缺点:合成音质较差。 特点:实现难度较大, 如TTS系统(文语转换系统) 实现过程: 保存存音素的参数,根据语音学规则产生语音。 句子组成:音素-音节-词,根据句子(规则)确定发音。 优点:可以合成无限词汇,存储量小 缺点:合成音质效果较差 三种合成系统的区别 1、合成单元(单位) 最小语音单位。从小到大依次为: 音素、双音素、半音节、音节、词、短语、句子 波形合成:词、短语或句子 参数/规则合成:英日-音素,汉语-音节或声韵母 2、合成参数 控制语音合成器所需要的参数 音色参数:共振峰、LPC、LSP参数 韵律参数:音强(幅度)、音调(基频)等 3、合成音质 系统输出的语音质量 可懂度、自然度、连贯性等主观指标 6.2.2 语音合成系统的特性 Av 冲激序列 发生器 声门脉冲 模型G(z) 随机噪声 发生器 基音周期TP AN 线性系统 声道V(z) 辐射 模型 R(z) 清/浊音开关 语音的生成模型 一、共振峰合成法 6.3 参数合成举例(参数合成法) 利用语音信号的生成模型,将声道视为一个谐振腔,利用腔体的谐振特性,共振峰频率及其带宽,为此构造一个共振峰滤波器。对激励信号进行处理,可到合成语音。 Av 冲激序列 发生器 声门脉冲 模型G(z) 随机噪声 发生器 基音周期TP AN 共振峰滤波器 清/浊音开关 一、共振峰合成法 二、共振峰合成方法 鼻腔 共振峰 滤波器 浊音激励 清音激励 第一 共振峰 滤波器 第二 共振峰 滤波器 第三 共振峰 滤波器 摩擦音 共振峰 滤波器 FV AH AF AN AV LF1 LF2 LF3 FF 可控制的参数共有10个: (1)4个幅值控制AV、AN、 AH、 AF (2)5个频率控制FV(浊音基频)、LF1、LF2、LF3、FF (3)1个清/浊音开关 一、共振峰合成方法 6.3 参数合成举例 二. 线性预测合成法(LPC编码) 将语音生成模型简化,将辐射、声道和声门激励进行组合,用一个时变数字滤波器来表示。 冲激 序列 发生器 随机 噪声 发生器 x(n) u(n) 线性 预测 分析 基音频率 清/浊音
文档评论(0)