- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
iLBC语音编解码器的研究与实现
一、引言
二、iLBC算法研究
一般将编码速率低于4.6kbps的语音编码器称为低比特率编码器,而把编码速率介于4.6kbps~24kbps的编码器称为中比特率编码器。按照这个划分标准,iLBC编码器属于中比特率编码器。iLBC算法基于码本激励线性预测这种参数编码方式,因此本章首先对基于码本激励线性预测算法的中比特率语音编解码器的组成结构及工作原理进行研究和探讨,在此基础上对iLBC算法进行研究,重点介绍其算法原理及特点。
2.1中低速率语音编解码算法研究
3)iLBC算法简介[参照ilbc白皮书]
自VoIP技术面世以来,业界对现存的低比特率编解码器标准的关注一直不断。VoIP应用主要在包交换的IP网络上进行传输,无法避免IP网络的丢包、延时、抖动等实时传输问题。2000年,Global IP Sound(GIPS)公司决定开发一种能够满足VoIP产业需求的编解码器,目标是利用GIPS内部的专业能力开发一款免授权费、专为数据包通信而设计,而且在理想无错情况和丢包情况下都能提供高音质的编解码器,并把它引入不同的标准化机构以符合互操作性的要求。这就是iLBC(Internet Low Bit Rate Codec)编解码器诞生的缘起。
目前大多数的语音编码都是基于码本激励线性预测(Code Excited Linear Prediction, CELP)编码模型的,例如ITU G.729、G.723.1和3GPP-AMR。CELP一直都被视为在交换网络中以低比特率电路获得高质量的一种非常成功的方法。这种编码方法具有高效性,主要是由于它利用了连续语音片段之间的互相依赖性,因此CELP编码的性能主要取决于前面编码的历史。CELP编码器是基于存储器的,故丢包或延迟所造成的误差会扩散开来,结果是单个丢包会影响到随后多个数据包的质量,这显然是数据包通信的一大缺陷。
iLBC本质上式一种基于帧的线性预测编码方法,是对CELP的一种发展,其独有的动态码本更新技术、语音增强技术和丢包掩蔽技术使其在VOIP中应用时有更好的性能。iLBC是专为提供文件的IP语音通信而开发的语音编解码器,以窄带语音为色合计基础,具有8kHz的采样率。iLBC支持两种基本的帧长度:13.3kbps比特率下编码帧长度为30ms;15.2kbps比特率下编码帧长度则为20ms。
编码前 帧长 编码后 比特率 格式1 采样率:8kHz
16bits/sample 20ms(2560bits) 304bits 15.2kbps 格式2 30ms(3840bits) 400bits 13.3kbps iLBC的帧格式
采用iLBC算法可以获得一个具有丢包相应控制的语音编码系统。iLBC对每一个数据包的处理都能够独立于其他数据包来进行,是数据包通信的理想选择。即使IP丢包和/或延迟现象的恶化,这种编解码器的语音质量下降情况也不会太差。这与基于CELP模型的一般编解码器的行为不同,这类编解码器最先是为交换电路网络或无线网络而设计的,是设计来恢复位错误而非丢包的。
2.3.1编码器[参照ilbc标准]
iLBC编码器本质上式一种基于帧的线性预测编码方法。编码器的输入为采样率为8kHz ,每个样点为16bit的单声道PCM语音数据。该数据被分为若干帧,每帧包含有160/240(20ms/30ms)个样点。iLBC编码器主要进行以下操作:
1)将每帧分为4/6个子帧,每个子帧包含40个样点。对30ms的帧,进行两次10阶的线性预测编码(LPC)分析,得到相应的LPC系数。对于20ms的帧,进行一次10阶LPC分析。
2)将每次分析得到的LPC系数转化为线谱对(LSF)系数,并对LSF系数进行量化、内插得到每个子帧的LSF系数。通过该量化内插后的LSF系数得到对应的LPC系数,即得到各子帧对应的线性预测分析器,通过对各个子帧的线性预测,得到各个子帧的残差。
3)选择残差中能量最大的两个连续子帧。这两个连续子帧的首部57/58(20ms/30ms)个样点被选定为本次处理的初始状态。对于浊音语音,这样的选取方式将至少包含一个基音脉冲。
4)对初始状态进行基于DPCM的标量量化,其结果作为编码输出的一部分。同时,将初始状态存入码本存储区,以构成动态码本的初始值,用于对本帧剩余样点进行矢量量化。
5)对于剩余的残差,矢量量化将按以下顺序进行:包含有初始状态的两个连续子帧中剩余的23/22个样点;时间轴上位于初始状态之后的各个子帧;时间轴上位于初始状态之前的各个子帧。对于此矢量量化,每次的有哪些信誉好的足球投注网站码本范围是动态码本,动态码本中存储了已经被编码的对象,并随着必威体育精装版的解码结果,该动态码本被更新。
6)对编码结果进行打包处理。
下图为iLBC编码器原理图。
2.3.1.1 预处理
在某些应用
文档评论(0)