Python之音频信号处理（一）音频基础知识.pdfVIP

下载本文档

0
0
约5.27千字
约 5页
2023-12-25 发布于河南
举报
版权申诉

Python之音频信号处理（一）音频基础知识.pdf

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Python之⾳频信号处理（⼀）⾳频基础知识

⽂章⽬录

⼀、⾳频基础知识

1、声⾳的三要素

（1）⾳调

⼈⽿对声⾳⾼低的感觉称为⾳调(也叫⾳频)。⾳调主要与声波的频率有关。声波的频率⾼，则⾳调也⾼。⼀般⾳频⼉童⼥⽣男⽣。

⼈⽿听觉⾳频范围是20Hz-20000Hz(做⾳频压缩时不在这个范围内的数据就可以砍掉)。

（2）⾳量

也就是响度。⼈⽿对声⾳强弱的主观感觉称为响度。响度和声波振动的幅度有关。⼀般说来，声波振动幅度越⼤则响度也越⼤。

⼈们对响度的感觉还和声波的频率有关，同样强度的声波，如果其频率不同，⼈⽿感觉到的响度也不同。

（3）⾳⾊

也就是⾳品。⾳⾊是⼈们区别具有同样响度、同样⾳调的两个声⾳之所以不同的特性，或者说是⼈⽿对各种频率、各种强度的声波的综合反

应。⾳⾊与声波的振动波形有关，或者说与声⾳的频谱结构有关。

2、⾳频的量化与编码

（1）⾳频的量化过程

现实⽣活中，我们听到的声⾳都是时间连续的，我们把这种信号叫模拟信号。模拟信号(连续信号)需要量化成数字信号(离散的、不连续的信

号)以后才能在计算机中使⽤。如下所⽰量化过程分为5个步骤：

模拟信号

现实⽣活中的声⾳表现为连续的、平滑的波形，其横坐标为时间轴，纵坐标表⽰声⾳的强弱。

采样

按照⼀定的时间间隔在连续的波上进⾏采样取值，如下图所⽰取了10个样。

量化

将采样得到的值进⾏量化处理，也就是给纵坐标定⼀个刻度，记录下每个采样的纵坐标的值。

编码

将每个量化后的样本值转换成⼆进制编码。

数字信号

将所有样本⼆进制编码连起来存储在计算机上就形成了数字信号。

（2）量化的基本概念

1）采样⼤⼩

⼀个采样⽤多少个bit存放，常⽤的是16bit(这就意味着上述的量化过程中，纵坐标的取值范围是0-65535，声⾳是没有负值的)。

2）采样率

也就是采样频率(1秒采样次数)，⼀般采样率有8kHz、16kHz、32kHz、44.1kHz、48kHz等，采样频率越⾼，声⾳的还原就越真实越⾃

然，当然数据量就越⼤。

模拟信号中，⼈类听觉范围是20-20000Hz，如果按照44.1kHz的频率进⾏采样，对20HZ⾳频进⾏采样，⼀个正⽞波采样2200次；对

20000HZ⾳频进⾏采样，平均⼀个正⽞波采样2.2次。

3）声道数

为了播放声⾳时能够还原真实的声场，在录制声⾳时在前后左右⼏个不同的⽅位同时获取声⾳，每个⽅位的声⾳就是⼀个声道。声道数是声

⾳录制时的⾳源数量或回放时相应的扬声器数量，有单声道、双声道、多声道。

4）码率

也叫⽐特率，是指每秒传送的bit数。单位为bps(BitPerSecond)，⽐特率越⾼，每秒传送数据就越多，⾳质就越好。

码率计算公式：

码率=采样率*采样⼤⼩*声道数

⽐如采样率44.1kHz，采样⼤⼩为16bit，双声道PCM编码的WAV⽂件：

码率=44.1hHz16bit2=1411.2kbit/s。

那么录制1分钟的⾳乐的⼤⼩为(1411.2*1000*60)/8/1024/1024=10.09M。

3、⾳频压缩技术

⾳频压缩主要包括2种⽅法：

（1）消除冗余数据

这种压缩的主要⽅法是去除采集到的⾳频冗余信息，这些被删除掉的⾳频信号是没法恢复的，所以称为有损压缩。

冗余信息包括⼈类听觉范围之外的⾳频信号和被掩蔽掉的⾳频信号。什么是被掩蔽的信号呢？信号的掩蔽分为频域掩蔽和时域掩蔽。

1）频域掩蔽效应

⼈类听觉范围是20-20000Hz，但这并不意味着只要是这个频率范围内的声⾳都可以听到，能否听到还与声⾳的分贝⼤⼩有关，有个分贝

临界值，⾼于这个临界值的声⾳才能听到，低于这个临界值的声⾳就听不到，在不同的频率下这个临界值是不⼀样的。

还有⼀种情况，⽐如2个⾳调差不多的⼈同时说话，⼀个声⾳很⼤，⼀个声⾳很⼩，声⾳⼩的会受到声⾳⼤的影响，导致声⾳⼩的⽆法被听

到。

2）时域掩蔽效应

除了同时发出的声⾳之间有掩蔽现象之外，在时间上相邻的声⾳之间也有掩蔽现象，称为时域掩蔽。时域掩蔽⼜分为超前掩蔽和滞后掩蔽，

如下图所⽰。产⽣时域掩蔽的主要原因是⼈的⼤脑处理信息需要花费⼀定的时间。⼀般来说，超前掩蔽很短，只有⼤约5～20ms，⽽滞后

掩蔽可以持续50～200ms。

（2）哈夫曼⽆损编码

将⼈类⽆法识别的声⾳信号删除掉后，对剩余的声⾳信号继续进⾏压缩编码，经过这种压缩后再还原时是可以复原到和原来⼀样的数据的

(当然，复原也只是复原到压缩前的状态，那些删除的⼈类⽆法识别的部分是不能复原的)，所以

您可能关注的文档

文档评论（0）

各类考试卷精编 + 关注: 官方认证

文档贡献者

各类考试卷、真题卷

咨询Ta 进入空间

认证主体社旗县兴中文具店（个体工商户）

IP属地河南

统一社会信用代码/组织机构代码: 92411327MAD627N96D

1亿VIP精品文档

更多 >

Python之音频信号处理（一）音频基础知识.pdfVIP