第一章：语音信号的基本理论.ppt

下载文档 降价啦

36
0
约4.98千字
约 52页
2017-08-14 发布于江西
举报
版权申诉
保障服务

第一章：语音信号的基本理论.ppt

1、本文档共52页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第一章：语音信号的基本理论.ppt

第一章：语音信号的基本理论语音的产生语音信号的短时谱、语谱图以及元音、辅音的产生机理及特点语音信号的产生模型语音信号的短时分析技术语音信号的短时自相关函数语音信号的短时基音周期估计 1、语音信号的时频特性一段语音信号的演示（MatLab）语音信号波形是语音声波经过声-电转换器得到的连续时间函数；波形图是语音幅度随时间变化的二维图。波形以振幅随时间变化为特征，综合的表达了语音的全部信息：包括语音的内容、音调、音质、相对音量变化等；波形特性语音信号幅度动态范围一般最大为40分贝，实际由于说话人的差别可以达到60~70分贝。元音幅度较大，有准周期性；清辅音幅度小，和噪声特性相似。在长时间的语音信号中有相当多的无信号区间，即所谓的语音寂静区间。幅度概率密度函数以零幅和近似零幅的概率高，而幅度非常高的情况概率很小。长时平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽玛(Gamma)分布逼近。对于短时幅度概率密度用高斯分布逼近就够了。长时平均幅度的概率密度分布语音信号相邻样值之间存在很大的相关性以汉语发音为例来对语音波形图加以说明：从波形图上可以区分以下几类发音：无声段和幅度较小的随机噪声段：特点是波形幅度明显小于发音段，波形无规则爆破音：特点是时长很短，仅有一两个脉冲，幅度大于无声段，一般处于辅音前；辅音：b,d,g,p,t,k,s,sh,x,h,f,z,zh,j,c,ch,q,m,n,l,r等，特点是波形幅度略大于无声段，波形无规则，一般处于具有周期性波形的元音之前；元音：特点是波形幅度明显大于无声段，波形具有周期性。频率特性带宽有限一般为20~3400Hz ,有限的带宽特性决定了可以用有限的奈奎斯特取样速率，把语音信号离散化功率谱密度语音中不同频谱分量的平均概率可以用长时平均谱密度来表示。语音波形高频分量对语音总能量的贡献很小，但是高频分量带有重要的语音信息，平均功率谱约在250-500Hz处最大，而高于此频率的功率谱约以每倍频程6~10dB下降。语音信号的短时频谱并不总是低通特性。辅音有较高的频谱分量，显噪声特性；元音从总体上看是低通的，显示明显的局部特性。语谱图语谱图在1941年由贝尔实验室研究人员发明，它试图用三维的方式显示语音频谱特性，纵轴表示频率，横轴表示时间，颜色的深浅表示特定频带的能量大小，语谱图的发明是语音研究的一个里程碑，它将语音的许多特征直观的呈现出来。语谱图分为宽带语谱图和窄带语谱图两种。语谱图宽带语谱图：带宽约为300Hz，具有良好的时间分辨率，但是频率分辨率较差；窄带语谱图：带宽约为45Hz,具有良好的频率分辨率，但是时间分辨率较差。在不同的语谱图上所表现的语音特征也不同。语谱图宽带与普图的典型谱型：宽横杠（Bar）：代表元音的共振峰位置，表现为图中与水平时间轴平行的较宽的黑杠，不同元音的共振峰位置不同，根据宽带语谱图上各横杠的位置可以区分不同的元音，不同人发音的第一共振峰位置会不同，但其分布结构是相似的。冲直条（spike）代表塞音（b,d,g,p,t,k）或塞擦音（z,zh,j,c,ch,q）,表现为图中与垂直频率轴平行的较宽的黑条，在时间上持续时间很短，在频率轴上集中区位置随不同的辅音而不同摩擦乱纹（fill）:代表摩擦音（s,sh,x,f,h）或者送气音的送气部分，表现为图中无规则的乱纹。语谱图窄带语谱图的典型谱型：窄横条：代表元音的基音频率及各次谐波，表现为图中与水平轴平行的线条，窄横条在频率轴的位置对应了音高频率值，随时间轴的曲折、升降变化代表了音高变化的模式无声间隙段：对应于语音的停顿间隙，在图中表现为空白区，在两种语谱图中都存在。毕业语谱图旷课语谱图曼谷语谱图受用语谱图语音信号的产生语音信号的频谱分量300-3400Hz 语音信号的短时性 5-50ms 语音信号的最基本组成单位是音素，音素可以分为浊音和清音，在短时分析的基础上可以判断一段语音属于哪一类清音与浊音浊音（Voiced Speech ）声带的振动产生准周期的声门脉冲激励声道产生浊音；在时域是准周期的（quasi-periodic），在频域具有谐波结构；周期脉冲的频率就是基频（Fundamental Frequency）或基音（Pitch）；清音（Unvoiced Speech ）当气流在声道中受到阻碍时，产生湍流，此时生成清音。清音在时域类似随机噪声，在频域具有宽带特征；混合音（Mixed Speech ）浊音的能谱由精细的谐波结构和共振峰结构刻画。共振峰结构，即谱包络（Spectral Envelope）共振峰（Formant）就是谱包络的峰值。共振峰反应了声道的共振特性，一般人