2章音频技术基础.pptVIP

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2章音频技术基础

第2章 音频技术基础 2-1 声学基础知识 人耳听觉特性 人耳听觉的掩蔽效应 声音质量评价 2-2 音频信息编码分类 分为三类:波形编码、参数编码和混和编码。 波形编码 基于对语音信号波形的数字化处理,试图使处理后重建的语音信号波形与原语音信号波形保持一致。 优点是实现简单、语音质量较好、适应性强等。 缺点是话音信号的压缩程度不是很高,实现的码速率比较高。 常见的波形压缩编码方法: 脉冲编码调制PCM、增量调制编码DM、差值脉冲编码调制DPCM、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等。 比特率一般在16至64之间 编码信号的速率: 编码速率=采样频率× 编码比特数 播放某个音频信号所需要的存储容量 存储容量=播放时间×速率÷8(字节) 参数编码 又称声源编码,它是通过构造一个人发声的模型,以发音机制的模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并对这些参量进行量化编码,以实现语音信息的数字化。 优点语音编码速率较低2kbps~9.6kbps 缺点是自然度较低。 在模型图中,周期信号源表示浊音激励源,随机信号表示清音激励源;u(n)表示波形产生的激励参数,可以用清/浊音判决(u/v)来表示;G是增益控制,代表语声信号的强度;线性时变滤波器可以看作是声道特性;ai是线性时变滤波器的系统参数;C(n) 是合成的语声输出。 参数编码的典型代表是线性预测编码LPC 混和编码 将波形编码和参数编码结合起来,力图保持波形编码话音的高质量与参量编码的低速率。 采用混合编码的编码器有: 多脉冲激励线性预测编码器(MPE-LPC) 规则脉冲激励线性预测编码器(RPE-LPC) 码激励线性预测编码器(CELP), 矢量和激励线性预测编码器(VSELP) 多带激励线性预测编码器。 2-3 常用压缩编码方法 脉冲编码调制PCM 对数据的采样值进行量化编码 信号缓慢变化,其相邻样值之间有较大的相关性 差分脉冲编码调制DPCM 对相邻样值的差值进行量化编码 由于此差值比较小,可以为其分配较少的比特数,进而起到了压缩数码率的目的 话音信号的样值序列 当前样值 完整的预测表达式 系数的求法是预测估值的均方差为最小的预测系数 。 为了进一步提高编码的性能,人们将自适应量化技术和自适应预测技术结合在一起用于差分脉冲编码调制DPCM中,从而实现了自适应差分脉冲编码调制ADPCM。ADPCM的简化原理框图如图2-8所示。 在线性预测编码LPC中,将语声信号简单的划分为浊音信号和清音信号。 清音:用白色随机噪声激励信号来表示 浊音:用准周期脉冲序列激励信号来表示 由于语声信号是短时平稳的,根据语声信号的短时分析和基音提取方法,可以用若干的样值对应的一帧来表示短时语声信号。 逐帧将语声信号用基音周期Tp,清/浊音(u/v)判决,声道模型参数ai和增益G来表示。对这些参进数行量化编码,在接收端再进行语声的合成。 标量量化:单个采样的样值进行量化 矢量量化VQ:将输入的信号样值按照某种方式进行分组,把每个分组看作是一个矢量,并对该矢量进行量化 发送端 n个带通滤波器将输入信号分为n个子频带,对各个对应的子带带通信号进行调制,将n个带通信号经过频谱搬移变为低通信号;对低通信号进行采样、量化和编码,得到对应各个子带的数字流;再经复接器合成为完整的数字流。经过信道传输到达接收端。 接收端 由分配器将各个子带的数字流分开,由译码器完成各个子带数字流的译码;由解调器完成信号的频移,将个子带搬移到原始频率的位置上。各子带相加就可以恢复出原来的语声信号。 将语声信号分为若干个子带后再进行编码有几个突出的优点: 对不同的子带分配不同的比特数可以很好的控制各个子带的量化电平数,很好的控制在重建信号时的量化误差方差值,进而获得更好的主观听音质量。 由于各个子带相互隔开,使各个子带的量化噪声也相互独立,互不影响,量化噪声被束缚在各自的子带内。这样,某些输入电平比较低的子带信号不会被其它子带的量化噪声所淹没。 子带划分的结果,使各个子带的采样频率大大的降低。 利用人耳听觉的心理声学特性(包括频域掩蔽特性和时域掩蔽特性) 人耳对音频信号的幅度、频率和时间的分辨能力是有限的 人耳感觉不到的成分都不进行编码和传送 对感觉到的部分进行编码时,也允许有较大的量化失真,只要这个失真是在人耳感觉不到的听阈以下即可 感知编码的理论基础是基于人耳的听阈、临界频段和掩蔽效应。 临界频段 反应了人耳对不同频段声音的反应灵敏度是有差异的 在低频段对几赫兹的声音差异都能分辨,而在高频段的差异要达到几百赫兹才能分辨。 试验表明

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档