基于MATLAB的声波分析研究作者:许文仪谷雨,指导老师:俞熹摘要.DOC

基于MATLAB的声波分析研究作者:许文仪谷雨,指导老师:俞熹摘要.DOC

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MATLAB的声波分析研究作者:许文仪谷雨,指导老师:俞熹摘要

基于MATLAB的声波分析研究 作者:许文仪 谷雨,指导老师:俞熹 摘要 Matlab是一款功能强大的数学软件,它附带大量的信号处理工具箱,如sptool、fdatool、wavelet工具箱等,为信号分析研究,特别是本文主要探讨的声波分析研究带来极大便利。声音的特征可用声压强,频率等各种参数描述,本文主要探究声音在频率上体现出的各种特性,并在此基础上在matlab平台下对声纹识别技术做初步探索。 关键词 Matlab,sptool,simulink,小波分析,频谱分析,fft变换,声纹识别,端点检测,DTW算法 正文 Matlab原始程序于20世纪70年代中期由美国新墨西哥大学计算机系主任Clever Moler开发完成,于1984年由Mathworks公司推向市场。在20多年的发展过程中软件版本不断更新,功能逐步完善,深受大学教师、学生及科研工作人员好评。Matlab也成为数值计算领域耳熟能详的名词,活跃在数值计算的各个舞台。 声音是大自然中广泛存在的物理对象,而千千万万中声音当属人类的语音最为特别,这在于它本身的高度有序性和完美的作为信息交流的媒体即表意性。对语音特性的好奇激发了人们对语音的大量研究。在此基础上语音识别技术在最近几十年中逐步发展起来,经历了从相对简单的有限集说话人身份识别(也称为声纹识别)到开放集识别,进而到孤立词词义识别再到连续语音识别的发展过程,是声学、语言学、信息处理技术等多门学科的交叉综合应用的典范。作为人工智能中人机交互手段的首要实现步骤,语音识别及合成技术成为了今年的研究热点,也有不少实用化的技术成果被商家成功推向了市场,也让人们看到了它在PDA、智能家电、工业控制等领域的广阔发展前景。本文就结合Matlab优秀的数值计算能力及强大的信号处理功能,借助于对声音的部分基本特征的研究,拓展Matlab在物理实验中的应用,并初步揭开语音识别的奥秘。 1.发声的生理机构与过程 对声音特别是人声的研究,首先得从人发声的基本规律开始。人的发音机理如图所示:发音时由肺部收缩送出一股直流空气,经气管流至喉头声门处。在发声之初,声门处声带肌肉收缩,声带并拢间隙小于1mm,这股直流空气冲过很小的缝隙,使声带得到横向和纵向速度,此时,声带向两边运动,缝隙增大,声门处压力下降,弹性复力将声带拉回平衡位置继续趋向闭合,即声带振动,且具有一定的振动周期。 人的声道和鼻道都是非均匀的声道管,声道官的谐振频率称为共振峰频率,或简称共振峰。它与发音器官的确切位置和形状有很大关系,即共振峰和声道的形状与大小有关。经研究,韵母音色差异可用前三个共振峰f1、f2、f3表示,f1主要分布在290到1000Hz范围内,f2主要分布在500到2500Hz范围内,f3主要分布在2500到4000Hz范围内。 2.发声模型 为对发生模型作一个定性了解,见下图的简化的一维模型。按以上发声机理,气流上冲,获得一个特定的频率,在口腔中形成发射,最后由口部出射由于口腔中气体的速度一定,故给定一个谐振动的话,可得相应波长为,于是初态入射波的空间部分可表达为:sin(k0x) 。 口腔是产生不同声音的重要部位,现用最简单的驻波模型,易知其本证态为:,(与L有关,实际中L=L(x)),,故驻波模式数与频率特征位置对应,。这就是声音频域图中产生基频与泛音的原理。 初态t~0,有,求得,即为对应频率为的振动频率波的功率。由上式,仅当 时,被积函数在0~L的周期内才会有很大的值,否则由于cos 函数的振荡性,积分值必不会很大。实际中,声带对给定的f是差不多的,改变口腔的形状、舌的位置等,相当于调整,因此引起主极大位置的变化。假定保持口腔位形几乎不变,多次发音,实得图形中主极大位置几乎不变,次极大位置也少有变化,两者高度对比的变化也不大。由于人声带起振频率偏低,因此频图中能量集中于低频段。见上图,横轴为频率,单位Hz,纵轴为功率。 再考虑时间部分,假定是间部分为延时达2A的谐波,则,功率,半峰宽。 X为方程的解,故如A为常数,不变。 实验得到的是高频率半峰宽显著增加,说明A随n的增加而减少,即高频段持续时间减少。见左边两图。 第一图为中心频率为193Hz附近的基频,半峰宽(图中圆形数据点之间)读数为6.5Hz左右; 第二图为中心频率2790Hz附近的共振峰中的一条主峰,半峰宽(圆形数据点之间)读数为17.3Hz左右。可见随频率的增高,半峰宽的增加是相当显著的。 从下图来看,衰减并不是单纯的A的减小,时间部分或许是类似e指数形的衰减因子,考虑到模型比较粗糙,故只能定性给出上述的一些基本说明。 3.频谱分析方法 语音感知过程与人的听觉系

您可能关注的文档

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档