语音信号短时分析技术.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音信号的短时分析技术 分析是处理的前提和基础; 分析的目的是提取需要的信息,获取特征表示参数; 可分为时域分析、频域分析、同态分析等;模型分析与非模型分析等; 分析技术:短时分析 10~30ms相对平稳(5~50ms,20~200ms) 分析帧长一般为20ms 常用的短时分析技术有: 短时能量 短时平均幅度 短时过零率 短时自相关函数 短时平均幅度差函数 短时频谱 短时功率谱 预滤波 预滤波的目的 防止混叠干扰 抑制50Hz的电源干扰 预滤波实际上是一个带通滤波器,其上下截止频率分别为fH和fL 。 对于绝大多数语音编码器而言,要求fH=3400Hz, fL=60~100Hz, fs=8KHz. 对于语音识别系统而言,用于电话用户时要求技术指标与语音编码器相同,如果对于更高的要求场合,则fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz 帧和加窗的概念 短时分析将语音流分为一段一段来处理,每一段称为一“帧”; 帧长:10~30ms,20ms常见;(帧率) 帧移:0~1/2帧长,帧与帧之间的平滑过渡; 为了减小语音帧的截断效应,需要加窗处理; 不同的窗口选择(形状、长度),将决定短时平均能量的性质。什么样的窗口,其短时平均能量才能更好的反映语音信号的振幅变化哪? 首先是窗口的形状,窗口有多种形状,他们都是中心对称的。 其次是窗口的长度,无论什么形状的窗口,窗口序列的长度N将起决定性的作用。N选得太大,滤波器的通带变窄,波形的振幅变化细节就看不出来,反之,如果N太小,则滤波器的通带变宽,信号得不到足够的平均。 所谓窗口长度的长短,都是相对于语音信号的基调周期而言的。通常认为在一个语音帧内,应含有1—7个基调周期为好。可是人的语音的基调周期值是变化的,从女性小孩的2ms到老年男子的14ms(即基调频率为500Hz至70Hz),所以N的选择是比较困难的。通常折衷的选择N为100~200点为宜。若采用频率为10KHz,则相当于每帧的长度(即窗口序列的长度)约为10~20ms为宜。若采样频率为8KHz,200点相当于25ms,40帧/s;120点相当于15ms,66帧/s. 窗函数及其比较 三种窗函数都有低通特性,通过分析三种窗的频率响应幅度特性可以发现: 矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄漏现象,哈明窗的主瓣最宽,旁瓣高度最低,可以有效的克服泄漏现象,具有更平滑的低通特性,应用更广泛。 窗口的形状和长度对分析影响很大,不同的分析方法对窗函数的要求不尽一样; 语音信号的短时能量(语音信号强度的度量参数) 如果窗的起点是n=0,短时能量为 如果窗的起点为n=m,短时能量为: 不同窗口宽度的短时能量函数示意图 短时平均能量的主要用途 可以从语音中区别出浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多; 可以用来区别声母和韵母的分界、无声和有声的分界等 最为一种超音段信息,用于语音识别中。 语音信号的短时平均幅度 如果窗的起点是n=0,短时平均幅度为 如果窗的起点为n=m,短时平均幅度为: 短时过零率 波形穿过横轴(零电平)的次数 语音信号的短时过零率Z 过零就是指信号通过零值。过零率就是每秒内信号值通过零值的次数。 对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本的改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数。可以用相邻两个取样改变符号的次数来计算。 如果窗的起点是n=0,短时过零率Z为 将Z应用于语音信号分析中 发浊音时,声带振动,因而声门激励是以此音调频率为基频来使声道共振;尽管有若干个共振峰,但其能量的分布集中于低于3KHz的频率范围内。 发清音时声带不振动,声道某部分阻塞产生类白噪声激励,通过声道后其能量集中在比浊音时更高的频率范围内。 浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高频率段内,具有较高的过零率。 浊音和清音情况下典型的平均过零率的直方图。直方图的分布形状与高斯分布很吻合,而且浊音时的短时平均过零率的均值为14过零/10ms,清音时短时过零率的均值为47过零/10ms。注意到浊音和清音有一个交叠区域,此时很难分清是浊音还是清音,尽管如此,平均过零率仍可以粗略的判断清音和浊音。 短时平均能量和短时平均过零率两个参数,也都可以用于语音识别中。主要用于识别无声段和语音段的起点和终点的位置。 在背景噪声比较小的时候用平均能量来识别比较有效,在背景噪声比较大的时候用平均过零率来识别比较有效,但是通常情况是两个参数联合进行识别。 E、M、Z的条件概率密度函数 浊音、清音、无声的短时特性 语音有声和无声 在许多语音处理技术中需要判断一段输入信号中哪些是语音段,哪些是无声段(只

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档