第二节 语音信号的基础知识.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
声母、韵母和声调是汉语语音的三要素。汉语语音的1个不同于其他语言的是它具有声调(音调)。声调是1个音节在念法上的高低升降的变化,汉语中有4个声调,即阴平(-)、阳平( ′)、上声( ? )、和去声(‵)。 4)汉语音节的一般结构 一 语音信号的产生 声调的变化就是浊音基音周期的变化,为了将调值描写地具体一些,一般采用“五度标记法”,用一条竖线表示声音的高低,从下而上用1、2、3、4、5依次表示低、半低、中、半高、高。 5 高 4 半高 3 中 2 半低 1 低 阴平 阳平 上声 去声 调类 阴平 阳平 上声 去声 调值 55 35 214 51 一 语音信号的产生 单独发声的一个音节或是语音流中的任何一个音节都可能由7部分组成。 无声段 音节 声母 鼻音段 声母辅音段 元音段 送气段 前过渡段 后过渡段 韵母 一 语音信号的产生 二 语音信号的感知(自学) 听觉系统 耳的结构 听觉的形成 耳蜗的作用 听觉特性 人耳的听阈及响度 音调 俺蔽效应 同时掩蔽和异时掩蔽 各种不同的掩蔽效果 本节主要讨论的问题 研究人对声音的感知,对语音编码识别很重要,如MP3。 三 语音信号的线性产生模型 激励模型(肺部,气管,声带) 声道模型(咽腔,口腔,喉腔,鼻腔) 辐射模型(口唇,鼻孔) 完整的语音信号的数学模型 本节主要讨论的问题: 三 语音信号的线性产生模型 传输函数 数学模型的特点:是一个终端模拟的近似模型,其内部结构与语音产生的物理过程并不一致,只是在输出端等效。 清/浊音开关 Av 冲激序列 发生器 声门波 模型G(z) 随机噪声 发生器 基音周期TP AN 线性系统 声道V(z) 辐射模型 R(z) 激励模型 激励模型 三 语音信号的线性产生模型 用数学方法描述肺部的气流与声带共同作用产生的激励。 浊音激励 清音激励 冲激序列 发生器 声门脉冲 模型G(z) 随机噪声 发生器 基音周期TP AN 清/浊音开关 AV 发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号逼近声门振动气流的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。 最后形成一个以基音周期为周期的斜三角型脉冲波。 1)浊音激励 三 语音信号的线性产生模型 Tp为冲激脉冲的周期,声门波模型产生单个声门脉冲 单位脉冲串 单位脉冲串及幅值的Z变换形式 三 语音信号的线性产生模型 将其表示为Z变换,有: 冲激序列:E(z) 浊音激励模型: U(z) = AVG(z)E(z) 斜三角型脉冲波 N1为斜三角波上升部分的时间,N2为其下降部分的时间 2)清音激励 清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。 三 语音信号的线性产生模型 将声激励分为两种情况,与实际不完全相符。例如爆破音是气流在声门完全闭合处的下方建立起压力,然后除去这种障碍,使压力迅速释放,产生一种瞬时的激励。在上面的声学模型中未考虑。 应将两种激励按一定比例进行叠加,更符合实际情况。 三 语音信号的线性产生模型 声道模型(共振峰模型) 线性系统 声道V(z) uG(n) ul(n) 三 语音信号的线性产生模型 1)声音在声道的传播涉及到许多物理定律(能量守恒、流体力学),需简化。有不同的模型。 2)语音信号是一个非平稳信号,激励和声道的谐振特性随时间变化。但在20-30ms内语音信号是平稳的,即激励和声道的特性几乎不变,因此认为在此时间段内系统是线性的。 用数学方法描述声道的调音特性。包括声管模型和共振峰模型 三 语音信号的线性产生模型 1)声管模型 “短时”间声道是一个形状稳定的级联管道,声 音在不同截面积间传输会有反射。 反射系数: km=(Am+1 - Am)/(Am+1 + Am) Am,Am+1是第m、m+1段的截面积 Km是声道的特性,确定Km,就确定了声道! A1 A2 A3 …. (a)立体图 (b)断面图 2)共振峰模型 三 语音信号的线性产生模型 声道近似为谐振腔,共振峰就是这个腔体的谐振频率,从共振峰的角度出发描述声道的模型称为共振峰模型。一般共振峰的个数为3-5个。 p、ak 决定了声道地特性(人的特征),p越大越吻合。一般p=8~12 (1)级(串)联型(元音):声道是一组串连的二阶谐振器(一个谐振腔对应1个共振峰频率)。 V1 V2 V3 V4 V5 传输函数 p为极点个数,G是增益参数,ak为模型系数。 传

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档