音信号的数学模型.pptVIP

下载本文档

0
0
约4.89千字
约 67页
2025-03-21 发布于四川
举报
版权申诉

音信号的数学模型.ppt

1、本文档共67页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

内耳1内耳是一个充满液体的骨质结构，由前庭、圆形窗、卵形窗及耳蜗组成。2耳蜗的信号处理机制当声音经外耳传入中耳时，镫骨的运动引起耳蜗内流体压强的变化，从而引起行波沿基底膜的传播。图2.6是流体波的简单表示。在耳蜗的底部基底膜的硬度很高，流体波传播的很快。随着波的传播，膜的硬度变得越来越小，波的传播也逐渐变缓。不同频率的声音产生不同的行波，而峰值出现在基底膜的不同位置上。图2.7基底膜上六个不同点的频率响应基底膜内毛细胞外毛细胞听传导通路DCAB听觉系统的研究主要集中在三个方面：听觉系统的实验研究、听觉系统的建模和听觉模型的应用。听觉系统的实验研究主要是指听觉系统在医学、生理学及心理学方面的研究。由于耳蜗深植于颅骨中，尺寸极小（如蜗管的直径只有1mm），所以耳蜗的实验研究是一项非常艰巨和复杂的工作。A耳蜗建模主要集中在基底膜的振动上，然而，建立基底膜的振动模型是耳蜗建模的首要任务，它又被称为耳蜗的宏观力学模型。B2.3.3语音信号听觉模型图2.10语音信号听觉模型一般原理框图语音信号首先通过一串带通滤波器(BPF)阵列，其中心频率跟随着图2.7所示的基底膜频率响应按照对数尺度分布。每一个带通滤波器都被独立的设定为有限冲激响应滤波器(FIR)或无限冲激响应滤波器(IIR)，但是频率响应的波形并不是严格精确的。12被滤波的信号在通过内毛细胞/突触模型之后，到达听传导通路模型。虽然各种听觉模型的带通滤波器的性能特征是基本相同的，但是在接下来几级的信号处理过程却有很大差异。事实上，不同的听觉模型都各自拥有不同的IHC模型，突触模型和听传导通路模型。一些模型为每一个滤波后的信号都设有独立的频道，而另一些模型则认为在基底膜上相邻位置处滤波得到的信号之间存在耦合性。根据人耳的听觉特性得出的模型作为语音识别的特征提取部分，可获得具有鲁棒性的特征参数，它们对真实世界中的噪音环境下的语音识别都表现出很好的性能。响度这是频率和强度级的函数。通常用响度(单位为宋)和响度级(单位为方)来表示。此时响度级定为零方。测量表明听阈值是随频率变化的。通常，人们把1kHz纯音听阈值定为零方。04语音的特性包括：音质，音调，音强，音长052.4.1几个概念01语音感知的强度范围是0－130dB声压级。03人耳听觉界限的频率范围大约为20Hz-20kHz。022.4语音的感知加大声音的强度，使听起来令耳朵感到疼痛，这个阈值称为“痛阈”。人耳刚刚可以听到的声音强度，称为“听阈”。物理单位为Hz，主观感觉的音高单位是美(Mel)。当声强级为40dB频率为1kHz时，设定的音高为1000美。音高(音调)音高也叫基音。2.4.2掩蔽效应掩蔽效应：两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，即：一个声音的听觉感受性受同时存在的另外一个声音的影响，这个现象称为人耳的“掩蔽效应”。此时前者称为被掩蔽音，后者称为掩蔽音。在掩蔽情况下，被隐蔽音的听阈会提高，即加大被掩蔽音的强度才能听到。此时听阈称为掩蔽听阈。低频的纯音可以有效地掩蔽高频的纯音。利用人耳的掩蔽效应，在进行语音压缩时，让量化噪音的频谱跟随语言信号频谱包络变化。则共振峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪声整形或听觉加权处理。低音容易掩蔽高音，而高音掩蔽低音较难。基于此，可以将真实的声音频率映射到“感知”频率尺度，即Bark尺度对应的临界带宽。32142.4.3临界带宽与频率群用一中心频率为f，带宽为Δf的白噪声来掩蔽一频率为f的纯音，先将这个白噪声的强度调节到使被掩蔽纯音恰好听不见为止。然后将Δf由大到小逐渐变化，而保持单位频率的噪声强度（即噪声谱密度）不变，起初这个纯音一直是听不见的，但当Δf小到某个临界值时，这个纯音就突然可以听见了。如果再进一步减小Δf，被掩蔽音f就会越来越清晰。这里刚刚开始能听到被掩蔽声时的Δf宽的频带，叫做频率f处的临界带。当掩蔽噪声的带宽窄于临界带的带宽时，能掩蔽住纯音f的强度是随噪声的带宽的增加而增加的，但当掩蔽噪声的带宽达到临界带后，继续增加噪声带宽就不再引起掩蔽量的提高了。临界带宽是随中心频率而变的，被掩蔽纯音的频率（即临界带的中心频率）越高，临界带宽也越宽。临界频带也可定义为：一个给定的正弦纯音在基底膜上能够产生谐振反应的那一部分。一个频率群的划分相应于基底膜分成许多很小的部分，每一部分对应一个频率群。一个临界带的单位用巴克（Bark）表示。有三部分作用施加在语音的声波上：声门产生的激励模型G(z)；声道产生的调制函数V(z