第02章 基础知识.pptVIP

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章 语音信号基础知识 人类的语言器官 语音产生过程 语音信号产生的数字模型 语音信号的特性 人类的听觉功能 1. 人类的语言器官 1. 人类的语言器官 人体发音器官—肺、气管、喉(包括声带)和声道,肺是语音产生的能源所在;声带为产生语音提供主要的激励源;声道是指声门至嘴唇的所有器官:咽、鼻腔 、口腔等,它们具有非均匀截面,且随时间变化,起共鸣器(或谐振器)的作用。 1. 人类的语言器官 1. 人类的语言器官 2.语音产生过程 声门气流和嘴部声压 物理模型 2.语音产生过程 语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。 浊音(Voiced sounds) :声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,这时候就造成周期性的激发气流,如a,o; 清音(Unvoiced or Fricative sounds) :声带完全舒展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如t,d; 爆破音:声带完全舒展,声道的某部位完全闭合,一旦闭合点突然开启,空气压力快速释放 ,如b,p。 能被人耳听到,它的振动频率在20~20 000 Hz之间 2. 语音产生过程 语音的两个重要声学特性: 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在80~500 Hz左右。 共振峰(Fn , n=1,2,...):声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,被放大的频率我们称之为共振峰或共振峰频率。 声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度 。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要,越多越精确。 口腔对声源频谱的调制——共振峰 共振峰是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓,或称谱包络。 语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决定所发声音的频谱特性,即音色。 元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特性可以从语音信号频谱分析得到的幅频特性观察到。 在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为现实的。 声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数,称为声道截面积函数,它决定共振峰的特性。 2. 语音产生过程 理想状态下共振峰的计算:假设声道截面是均匀的(此 时可把声道看作一个粗细均匀的圆筒),从喉到唇的距 离L=17 cm,音速c=340 m/s,则共振峰将发生在: 谐振频率发生在500Hz的奇数倍 3. 语音信号产生的数字模型 语音信号(Speech Signal) 数字语音信号表示(Representations of Speech Signals) (1)激励模型 由此模型框图,我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分:激励模型、声道模型、辐射模型 激励模型 根据发浊音和发清音的机理 又分为:(a)浊音激励 (b)清音激励 (a)浊音激励 由前面所讲发音过程可知,发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波,其周期为基音周期,单个脉冲的波形类似于斜三角波,故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入,其输出就是浊音激励。 由于人类语音的频率范围主要集中在300Hz~3400Hz,数字模型中的信号取样率一般为8KHz。 (b)清音激励 发清音时声道被阻碍形成湍流,所以可把 清音激励模拟成随机白噪声。此处用均值 为0方差为1并在幅值上为平稳分布的序列, 具体实现时可采用随机噪声发生器来产生 此序列。 (2)声道模型 两种建模方法:(a)声管模型(b)共振峰模型 共振峰模型将声道视为一个谐振腔,按 此原则导出。 基于各种音素发音的不同谐振特点可建 立起三种实用的共振峰模型: (a)级联型 (b)并联型 (c)混合型 (a)级联型: 适用于一般单元音,认为声道是一组串联的二阶谐振器: (b)并联型 适用于鼻音、复合元音及大部分辅音,发这些音时发音 腔体具有反谐振特性,必须在模型中加入零点以减弱谐 振强度,故要考虑用零、极点模型: 前面两种共振峰模型各自都只能适用于部分语音,级联或并联的级数取决于声道的长度,一般成人取3到5

文档评论(0)

mkt361 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档