数字语音处理及matlab仿真.pptxVIP

下载本文档

52
0
约5.63千字
约 76页
2020-02-16 发布于上海
举报
版权申诉

数字语音处理及matlab仿真.pptx

1、本文档共76页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第三章语音信号的短时时域分析 3.1 概述13.2 语音信号的预处理23.3 短时平均能量 33.4 短时平均幅度函数 43.5 短时平均过零率 5 3.6 短时自相关分析 6 3.7基于能量和过零率的语音端点检测7 3.8基音周期估值 83.1 概述语音信号是一种非平稳的时变信号，它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息。语音处理的目的：对语音信号进行分析，提取特征参数，用于后续处理；加工语音信号。总之，语音信号分析的目的就在于方便有效的提取并表示语音信号所携带的信息。根据所分析的参数类型，语音信号分析可以分成时域分析和变换域（频域、倒谱域）分析。其中时域分析方法是最简单、最直观的方法，它直接对语音信号的时域波形进行分析，提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。3.2 语音信号的预处理在对语音信号进行数字处理之前，首先要将模拟语音信号s(t) 离散化为s(n). 实际中获得数字语音的途径一般有两种，正式的和非正式的。正式的是指大公司或语音研究机构发布的被大家认可的语音数据库，非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。语音信号的频率范围通常是300~3400Hz，一般情况下取采样率为8kHz即可。本书的数字语音处理对象为语音数据文件，是已经数字化了的语音。有了语音数据文件后，对语音的预处理包括：预加重、加窗分帧等。3.2.1 语音信号的预加重处理预加重目的：为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。可通过一阶FIR高通数字滤波器来实现：设n时刻的语音采样值为x(n) ，经过预加重处理后的结果为高通滤波器的幅频特性和相频特性如下预加重前和预加重后的一段语音信号时域波形预加重前和预加重后的一段语音信号频谱 3.2.2 语音信号的加窗处理由于发音器官的惯性运动，可以认为在一小段时间里（一般为10ms~30ms）语音信号近似不变，即语音信号具有短时平稳性。这样，可以把语音信号分为一些短段（称为分析帧）来进行处理。语音信号的分帧实现方法：采用可移动的有限长度窗口进行加权的方法来实现的。一般每秒的帧数约为33～100帧。分帧一般采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0~1/2。图3.3给出了帧移与帧长示意图。加窗常用的两种方法：矩形窗，窗函数如下：汉明(Hamming)窗，窗函数如下矩形窗及其频谱如下汉明窗及其频谱如下思考：两种窗效果有何异同？加窗方法示意图：窗长的选择一般选取100～200。原因如下：当窗较宽时，平滑作用大，能量变化不大，故反映不出能量的变化。当窗较窄时，没有平滑作用，反映了能量的快变细节，而看不出包络的变化。语音信号的分帧处理，实际上就是对各帧进行某种变换或运算。设这种变换或运算用T[ ]表示，x(n)为输入语音信号，w(n)为窗序列，h(n)是与w(n)有关的滤波器，则各帧经处理后的输出可以表示为： 1.对应于能量；对应于平均过零率；3.对应于自相关函数；几种常见的短时处理方法是：，2.3.3短时平均能量 1．短时平均能量定义定义n时刻某语音信号的短时平均能量En为：当窗函数为矩形窗时，有若令则短时平均能量可以写成： 2.En特点：En反映语音信号的幅度或能量随时间缓慢变化的规律。3.窗的长短对于能否由短时能量反映语音信号的幅度变化，起着决定性影响。如果窗选得很长，En不能反映语音信号幅度变化。窗选得太窄，En将不够平滑。通常，当取样频率为10kHz时，选择窗宽度N=100~200是比较合适的。不同矩形窗长N时的短时能量函数短时平均能量的主要用途如下： 1）可以作为区分清音和浊音的特征参数。 2）在信噪比较高的情况下，短时能量还可以作为区分有声和无声的依据。 3）可以作为辅助的特征参数用于语音识别中。MATLAB的具体实现如下：1、用Cooledit读入语音“我到北京去”。2、将读入的语音文件wav保存为txt文件，设置采样率为8kHz，16位，单声道。3、把保存的文件zqq.txt读入Matlab。fid=fopen(zqq.txt,rt); x=fscanf(fid,%f);fclose(fid);4、对采集到的语音样点值进行分帧。3.4短时平均幅度函数为了克服短时能量函数计算x2 ( m ) 的缺点，定义了短时平均幅度函数: Mn与En的比较： 1. Mn能较好地反映清音范围内的幅度变化； 2. Mn所能反映幅度变化的动态