MPEGAUDIO音频处理的基本知识(DOC可编).docVIP

MPEGAUDIO音频处理的基本知识(DOC可编).doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MPEGAUDIO音频处理的基本知识(DOC可编).doc

MPEG AUDIO音频处理的基本知识(整理) [转] 2011-02-23 22:16:04|??分类: 音响相关 |??标签:量化??遮蔽??noise??tone??band?? |字号大中小?订阅 ??? 音频数据因为其內容的特性,以传统的压缩方法很难达到很高的压缩率,不过我们人耳并没有无限的时间解析度和频率解析度,其实原始的音频信号中包含了很多我们听不到的内容。把这些对我们来说其实无意义的内容去掉,这样就可以达到很高的压缩率。这种利用人类感官知觉的特性的失真压缩法,就叫做perceptual coding(感知编码)。 ??? 人耳的生理结构,由外耳的耳殼收集外界的声波到达中耳的耳膜产生震动,经由三块小骨连接前庭窗传入内耳,其中由于耳殼的內凹形状,外耳道的长度和宽度..等等生理的构造,会对不同频率产生共振升压的效果,尤其是2~5KHz的频率,会在这个过程中被放大。人耳的听觉频率范围,大约是20Hz~20KHz,音量范围则是130dB SPL, 大于130dB会产生痛苦的感觉,小于0dB则被当成是静音。如上所述,人耳对2~5KHz 的频率最敏感,越往高频感觉越不敏锐,音量要超过一定的界限以上不能被人耳察觉,这个最低可以听闻的界限,叫做ATH(absolute threshold of hearing)。内耳的耳蜗有许多绒毛细胞,分别会对不同的频率产生反应,将基底膜淋巴液的波动转换成神经的电流信号,传达给大脑。也就是说耳蜗的作用就像一个频谱分析仪,把声波转换成不同频率的信号,每一个特定位置的绒毛细胞会受到特定频率的刺激,但是当基底膜传导波动时其临近周围的阿绒毛细胞也会受到刺激。这也就是说如果有一个频率的音量很大,在它附近同时有一个比较弱的频率的话,比较弱的频率的声音就会被比较强的声音给遮蔽掉。我们人耳没有办法分辨出有一个比较弱的频率的声音存在。这个遮蔽的作用叫做frequency masking。另外从基底膜收到声音震动到达稳定状态,还有声音结束后完全停止,中间都需要一段时间。所以如果有一个很大声的声音出现,在这个声音开始之前,到这个声音结束之后,有一段时间我们听不到其他声音的,这种遮蔽效应,我们称为temporal masking,之前的叫pre-masking,之后的叫 post-masking。前面提到耳蜗就像一部频谱分析仪,或者说像一个band pass filter,会把声音分成许多不同的子频带,每个频带里都有一个中心频率,越往两边遮蔽效果就越弱,在同一个频带里面的频率会互相影响,我们对他们的感知特性也十分接近,这种人耳知觉特性的频带,我们称为critical band。critical band 的宽度并不是都相等的,低频的部分比较窄,高频的部分则比较宽,总共分成26个critical band。除了人耳的生理结构特性以外,大脑的作用也占了一个很重要的角色。我们都知道高音是由基音决定,而音色是由泛音决定,我们很惊讶的发现,人类的大脑会自动补上基音,即使这个基音并不存在。譬如说电话的频宽只有300~3200Hz,但是当我们听一个基音在120Hz的男性讲电话的时候,我们还是可以听出他的正确的音高,不会把男生听成女生。大脑是如何运用复杂的计算去重建这个不存在的基音,我们目前尚无法得知。 ??? 经过长期的实验和观察,我们可将人耳的听觉特性定性,建立一个人耳的听觉模型,叫做psychoacoustic model,有了这些对人耳知觉特性的了解,我们就可以根据这些理论来压缩音频数据,把我们听不到的声音去掉。 ??? 说是去掉,实际上是怎么做的呢?要将无限的连续的模拟信号转换成有限的离散的数字信号,中间必须经过取样和量化的过程,譬如说现在量化的位阶只有0~8九个数字,每一个位阶的间隔大小是一格,对一个4.9的信号作量化,得到的数字是5,和原来4.9相差0.1,这个误差叫做量化噪音。假设我们把量化的位阶减少到5个,分别为0~8中的0,2,4,6,8。位阶的间隔大小变成两格,此时再对4.9量化,量化的结果就是4,误差扩大到0.9,也就是说量化的位阶越少,量化的间隔就越大,量化噪音也就越大。 ??? 我们做一个实验,把16bit的声波转为8bit,当场丢掉一半的内容,数据也就小了一半,最简单的失真压缩。不过我们观察频谱发现,减少量化的bit数产生的量化噪音,会造成全频带都水平上升一定杂音,你如果听这个8bit的声波文件,会发现背景充满沙沙的噪音,这就是因为量化误差产生的量化噪音。那我们会想,这样全频带都减少一定的bit数太没有的效率,为什么不把他分成好几个频带(critical band),再根据人耳的心理声学模型的遮蔽效应,对不同频带分配不同的bit数,让各个频带产生的量化噪音低于遮蔽效应的曲线以下,这样这些产生的量化噪音

文档评论(0)

rewfdgd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档