第四章 语音信号处理技术.ppt

  1. 1、本文档共171页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 语音信号处理技术

语音信号处理简称语音处理,是以语音学和数字信号处理为基础而形成的一门综合性学科,处理的目的是要得到一些语音参数以便高效的传输或存储,或者通过处理的某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话者,识别讲话的内容等。 基础: 指导: 技术手段: 波形特性 语音信号幅度动态范围一般最大为40分贝,实际由于说话人的差别可以达到60-70分贝。 元音幅度较大,有准周期性;清辅音幅度小,和噪声特性相似。 在长时间的语音信号中有相当多的无信号区间,即所谓的语音寂静区间。 幅度概率密度函数以零幅和近似零幅的概率高,而幅度非常高的情况概率很小。 长时平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽玛(Gamma)分布逼近。 对于短时幅度概率密度用高斯分布逼近就够了。 语音信号是一种短时平稳信号,可以在每个时刻用其附近的短时段语音信号分析得到一种频谱,将语音信号连续的进行这种频谱分析,得到一种三维图谱,横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率信号的能量。这种时频图就是语谱图。 记录语谱图的仪器就是频谱仪。 语音产生模型起源于30年代发明的声码器(Vocoder)。 基本思想是将激励与系统相分离,使语音信号解体,分别进行描述,而不是直接研究语音信号波形本身。 语音信号是一个非平稳的随机过程,但随时间的变化很缓慢,可做一些合理的假设,将语音信号分成短段处理,在这些短段中可视为平稳随机过程,采用线性不时变模型。 2、采样: 将时间连续信号变成时间离散信号。 采样频率通常为fs=8kHz。 由于语音信号的准平稳特性,可以将平稳过程的处理方法和理论引入到语音信号的短时处理中,将语音信号划分为很多短时的语音段,每个短时的语音段称为一个分析帧。 这样对一帧语音信号进行处理就相当于对特征固定的持续信号进行处理。在处理时,按帧取数据,处理完后再取下一帧。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0~1/2。 好处:在语音短时平稳允许的时间间隔内,增加可处理的帧数,可减少语音分帧处理造成的不连续性。 分帧是用可移动的有限长度窗口进行加权的方法实现的,就是用一定的窗函数w(n)来乘s(n),从而形成加窗语音信号。窗函数w(n)的选择(形状和长度),对短时分析参数的影响很大,为此应选择合适的窗,使其短时参数更好地反映语音信号的变化特性。一般在语音识别的前端处理中,都选用汉明窗来进行语音分帧处理。 在语音合成技术发展中,早期研究主要是采用参数合成方法。 1990年提出的基音同步叠加PSOLA方法,使基于时域波形拼接方法合成的语音音色和自然度大大提高。 我国的汉语语音合成研究从80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、线性预测编码(LPC)合成到应用PSOLA技术的过程。 关键性能:正确、自然 用途: 车站内的广播公告系统 交通信息或电话号码查询等公共服务 机器朗读 语音报警器 自动报时 另一种波形合成法是波形编辑合成,它把波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。它采用语音编码技术,存储适当的语音基元,合成时,经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。 参数合成法:采用声码器技术,对语音信号进行分析,用有限个参数表示语音信号,以压缩存储量。 参数合成法有:发音器官参数合成和声道模型参数合成。 发音器官参数合成法:是对人的发音过程直接进行模拟。它定义了唇、舌、声带的相关参数,如唇开口度、舌高度、舌位置、声带张力等,由发音参数估计声道截面积函数,进而计算声波。 缺点:合成语音的质量不理想。 声道模型参数语音合成是基于声道截面积函数或声道谐振特性合成语音的。 建立声学模型的过程为:首先录制声音,这些声音涵盖了人发音过程中所有可能出现的读音;提取出这些声音的声学参数,并整合成一个完整的音库。在发音过程中,首先根据需要发的音,从音库中选择合适的声学参数,然后根据韵律模型中得到的韵律参数,通过语音合成算法产生语音。 参数合成方法的优点:音库一般较小,并且整个系统能适应的韵律特征的范围较宽,这类合成器比特率低,音质适中。 缺点:算法复杂、参数多,在压缩比较大时,信息丢失亦大,合成出的语音总是不够自然、清晰。 为了改善音质,近几年发展了混合编码技术,以改善激励信号的质量。 规则合成法:一种高级的合成方法,通过语音学规则产生语音,可以合成无限词汇的语句。合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。 算法中,用于波形拼接和韵律控制的较有代表性的算法是基音同步叠加PSOLA技术。 基音同步叠加PSOLA技术

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档