第二章语音信号的基础知识.pptVIP

下载本文档

36
0
约8.19千字
约 56页
2017-06-10 发布于四川
举报
版权申诉

第二章语音信号的基础知识.ppt

1、本文档共56页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

声母、韵母和声调是汉语语音的三要素。汉语语音的1个不同于其他语言的是它具有声调（音调）。声调是1个音节在念法上的高低升降的变化，汉语中有4个声调，即阴平（－）、阳平（ ′）、上声（ ? ）、和去声（‵）。 4）汉语音节的一般结构一语音信号的产生声调的变化就是浊音基音周期的变化，为了将调值描写地具体一些，一般采用“五度标记法”，用一条竖线表示声音的高低，从下而上用1、2、3、4、5依次表示低、半低、中、半高、高。 5 高 4 半高 3 中 2 半低 1 低阴平阳平上声去声调类阴平阳平上声去声调值 55 35 214 51 一语音信号的产生单独发声的一个音节或是语音流中的任何一个音节都可能由7部分组成。无声段音节声母鼻音段声母辅音段元音段送气段前过渡段后过渡段韵母一语音信号的产生二语音信号的感知（自学）听觉系统耳的结构听觉的形成耳蜗的作用听觉特性人耳的听阈及响度音调俺蔽效应同时掩蔽和异时掩蔽各种不同的掩蔽效果本节主要讨论的问题研究人对声音的感知，对语音编码识别很重要，如MP3。三语音信号的线性产生模型激励模型（肺部，气管，声带）声道模型（咽腔，口腔，喉腔，鼻腔）辐射模型（口唇，鼻孔）完整的语音信号的数学模型本节主要讨论的问题：三语音信号的线性产生模型传输函数数学模型的特点：是一个终端模拟的近似模型，其内部结构与语音产生的物理过程并不一致，只是在输出端等效。清/浊音开关 Av 冲激序列发生器声门波模型G(z) 随机噪声发生器基音周期TP AN 线性系统声道V(z) 辐射模型 R(z) 激励模型激励模型三语音信号的线性产生模型用数学方法描述肺部的气流与声带共同作用产生的激励。浊音激励清音激励冲激序列发生器声门脉冲模型G(z) 随机噪声发生器基音周期TP AN 清/浊音开关 AV 发浊音时，声激励是一个准周期的单位脉冲串，Av为增益参数；为了使浊音的激励信号逼近声门振动气流的实际波形，需将冲激序列通过一个声门脉冲模型滤波器（实际上是一个斜三角波形）G(z)。最后形成一个以基音周期为周期的斜三角型脉冲波。 1）浊音激励三语音信号的线性产生模型 Tp为冲激脉冲的周期，声门波模型产生单个声门脉冲单位脉冲串单位脉冲串及幅值的Z变换形式三语音信号的线性产生模型将其表示为Z变换，有：冲激序列：E(z) 浊音激励模型： U(z) = AVG(z)E(z) 斜三角型脉冲波 N1为斜三角波上升部分的时间，N2为其下降部分的时间 2）清音激励清音激励模拟为随机噪声，实际中一般使用均值为0、方差为1的白噪声。三语音信号的线性产生模型将声激励分为两种情况，与实际不完全相符。例如爆破音是气流在声门完全闭合处的下方建立起压力，然后除去这种障碍，使压力迅速释放，产生一种瞬时的激励。在上面的声学模型中未考虑。应将两种激励按一定比例进行叠加，更符合实际情况。三语音信号的线性产生模型声道模型(共振峰模型) 线性系统声道V(z) uG(n) ul(n) 三语音信号的线性产生模型 1)声音在声道的传播涉及到许多物理定律(能量守恒、流体力学)，需简化。有不同的模型。 2)语音信号是一个非平稳信号，激励和声道的谐振特性随时间变化。但在20－30ms内语音信号是平稳的，即激励和声道的特性几乎不变，因此认为在此时间段内系统是线性的。用数学方法描述声道的调音特性。包括声管模型和共振峰模型三语音信号的线性产生模型 1）声管模型 “短时”间声道是一个形状稳定的级联管道，声音在不同截面积间传输会有反射。反射系数： km＝(Am+1 - Am)/(Am+1 + Am) Am,Am+1是第m、m+1段的截面积 Km是声道的特性，确定Km，就确定了声道！ A1 A2 A3 …. (a)立体图 (b)断面图 2）共振峰模型三语音信号的线性产生模型声道近似为谐振腔，共振峰就是这个腔体的谐振频率，从共振峰的角度出发描述声道的模型称为共振峰模型。一般共振峰的个数为3-5个。 p、ak 决定了声道地特性(人的特征)，p越大越吻合。一般p=8~12 (1)级（串）联型(元音)：声道是一组串连的二阶谐振器（一个谐振腔对应1个共振峰频率）。 V1 V2 V3 V4 V5 传输函数 p为极点个数，G是增益参数，ak为模型系数。传