- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MATLAB的声波分析研究作者:许文仪谷雨,指导老师:俞熹摘要
基于MATLAB的声波分析研究
作者:许文仪 谷雨,指导老师:俞熹
摘要
Matlab是一款功能强大的数学软件,它附带大量的信号处理工具箱,如sptool、fdatool、wavelet工具箱等,为信号分析研究,特别是本文主要探讨的声波分析研究带来极大便利。声音的特征可用声压强,频率等各种参数描述,本文主要探究声音在频率上体现出的各种特性,并在此基础上在matlab平台下对声纹识别技术做初步探索。
关键词
Matlab,sptool,simulink,小波分析,频谱分析,fft变换,声纹识别,端点检测,DTW算法
正文
Matlab原始程序于20世纪70年代中期由美国新墨西哥大学计算机系主任Clever Moler开发完成,于1984年由Mathworks公司推向市场。在20多年的发展过程中软件版本不断更新,功能逐步完善,深受大学教师、学生及科研工作人员好评。Matlab也成为数值计算领域耳熟能详的名词,活跃在数值计算的各个舞台。
声音是大自然中广泛存在的物理对象,而千千万万中声音当属人类的语音最为特别,这在于它本身的高度有序性和完美的作为信息交流的媒体即表意性。对语音特性的好奇激发了人们对语音的大量研究。在此基础上语音识别技术在最近几十年中逐步发展起来,经历了从相对简单的有限集说话人身份识别(也称为声纹识别)到开放集识别,进而到孤立词词义识别再到连续语音识别的发展过程,是声学、语言学、信息处理技术等多门学科的交叉综合应用的典范。作为人工智能中人机交互手段的首要实现步骤,语音识别及合成技术成为了今年的研究热点,也有不少实用化的技术成果被商家成功推向了市场,也让人们看到了它在PDA、智能家电、工业控制等领域的广阔发展前景。本文就结合Matlab优秀的数值计算能力及强大的信号处理功能,借助于对声音的部分基本特征的研究,拓展Matlab在物理实验中的应用,并初步揭开语音识别的奥秘。
1.发声的生理机构与过程
对声音特别是人声的研究,首先得从人发声的基本规律开始。人的发音机理如图所示:发音时由肺部收缩送出一股直流空气,经气管流至喉头声门处。在发声之初,声门处声带肌肉收缩,声带并拢间隙小于1mm,这股直流空气冲过很小的缝隙,使声带得到横向和纵向速度,此时,声带向两边运动,缝隙增大,声门处压力下降,弹性复力将声带拉回平衡位置继续趋向闭合,即声带振动,且具有一定的振动周期。
人的声道和鼻道都是非均匀的声道管,声道官的谐振频率称为共振峰频率,或简称共振峰。它与发音器官的确切位置和形状有很大关系,即共振峰和声道的形状与大小有关。经研究,韵母音色差异可用前三个共振峰f1、f2、f3表示,f1主要分布在290到1000Hz范围内,f2主要分布在500到2500Hz范围内,f3主要分布在2500到4000Hz范围内。
2.发声模型
为对发生模型作一个定性了解,见下图的简化的一维模型。按以上发声机理,气流上冲,获得一个特定的频率,在口腔中形成发射,最后由口部出射由于口腔中气体的速度一定,故给定一个谐振动的话,可得相应波长为,于是初态入射波的空间部分可表达为:sin(k0x) 。
口腔是产生不同声音的重要部位,现用最简单的驻波模型,易知其本证态为:,(与L有关,实际中L=L(x)),,故驻波模式数与频率特征位置对应,。这就是声音频域图中产生基频与泛音的原理。
初态t~0,有,求得,即为对应频率为的振动频率波的功率。由上式,仅当 时,被积函数在0~L的周期内才会有很大的值,否则由于cos 函数的振荡性,积分值必不会很大。实际中,声带对给定的f是差不多的,改变口腔的形状、舌的位置等,相当于调整,因此引起主极大位置的变化。假定保持口腔位形几乎不变,多次发音,实得图形中主极大位置几乎不变,次极大位置也少有变化,两者高度对比的变化也不大。由于人声带起振频率偏低,因此频图中能量集中于低频段。见上图,横轴为频率,单位Hz,纵轴为功率。
再考虑时间部分,假定是间部分为延时达2A的谐波,则,功率,半峰宽。 X为方程的解,故如A为常数,不变。
实验得到的是高频率半峰宽显著增加,说明A随n的增加而减少,即高频段持续时间减少。见左边两图。
第一图为中心频率为193Hz附近的基频,半峰宽(图中圆形数据点之间)读数为6.5Hz左右;
第二图为中心频率2790Hz附近的共振峰中的一条主峰,半峰宽(圆形数据点之间)读数为17.3Hz左右。可见随频率的增高,半峰宽的增加是相当显著的。
从下图来看,衰减并不是单纯的A的减小,时间部分或许是类似e指数形的衰减因子,考虑到模型比较粗糙,故只能定性给出上述的一些基本说明。
3.频谱分析方法
语音感知过程与人的听觉系
您可能关注的文档
- 图形、图像、动画.PPT
- 国际直线对撞机(ILC)高梯度射频超导加速腔研制.PDF
- 图形化硅纳米线阵列场发射阴极的制备及其场发射-浙江农林大学学报.PDF
- 图像处理与理解二.PPT
- 图案化定向碳纳米管阵列的场发射性能研究-电子器件.PDF
- 圣约翰科技大学101-110学年度短中长程发展计画单位:精密仪器中心.DOC
- 圆圆员怨铝合金电子束焊接匙孔演变过程的数值模拟.PDF
- 土地利用与生态环境建设信息系统设计研究-安徽农业科学.PDF
- 土鸡生态养殖技术研究项目报告书-土鸡养殖场.DOC
- 在AUX 端口上配置调制解调器,以实现EXEC 拨入连通性 - Cisco.PDF
- 小学毕业纪念册.pptx
- 生日宴百日宴主题模板.pptx
- 2025届高考地理一轮复习: 从人地作用看自然灾害 专题练习题(含答案解析).docx
- 2025届高中历史一轮复习:中国现代史 专题测试卷(含答案解析).docx
- 2025届高中历史一轮复习:世界近代史 专题测试卷(含答案解析).docx
- 2025届高中历史一轮复习:民国 专题测试卷(含答案解析).docx
- 2025届高考地理一轮复习: 自然环境的特征 专题练习题(含答案解析).docx
- 2025届高中历史一轮复习:世界古代史 专题测试卷(含答案解析).docx
- 2025届高考地理一轮复习: 地理环境与区域发展 专题练习题(含答案解析).docx
- 2025届高考地理一轮复习: 水体运动的影响 专题练习题(含答案解析).docx
文档评论(0)