[语音质量评估.docxVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[语音质量评估

通常,人既是语音的发送主体,也是语音的接收主体。语音所具备的自然属性和社会属性决定了人对语音的感知涉及到语音信号的物理特征、听觉器官对语音的听觉表征及听觉心理等诸多方面,因此难以对语音质量这个概念做出全面、精确的定义。一般说来,语音质量至少包括三个方面内容:清晰度、可懂度和自然度。清晰度是指语音中语言单元为意义不连贯的(如音素、声母、韵母等)单元的清晰程度;可懂度是指语音中有意义的语言单元(如单词、单句等)内容的可识别程度;自然度则与语音的保真性密切相关。目前对语音可懂度、清晰度的主观评测己有国际和国内标准,对语音自然度还缺乏公认的评价准则。语音质量受到个人区别、可理解性、语音特征、周围环境、背景噪声传输、网络状况和人的期望等复杂的因素影响.用于评价输出语音质量的方法分为主观评价和客观评价两种1 主观评价法主观评价方法以人为主体在某种预设原则的基础上对语音的质量作出主观的等级意见或者作出某种比较结果,它反映听评者对语音质量好坏的主观印象。不同的主观评价方法对语音质量考察的侧重点不同,常见的主观评价方法有平均意见分(MeanOpinion Score,MOS)方法、判断韵字测试(Diagnostic Rhyme Test,DRT)方法、失真平均意见分(DegradationMean Opinion Score,DMOS)、判断满意度测试(Dignostic AcceptabilityMeasure,DAM)方法和汉语清晰度测试。ITU-T推荐用于传输性能的主观评价有以下几种[14]:1.绝对等级评价(Absolute Category Rating,ACR)ACR主要通过平均意见分(MOS)对音质进行主观评价。这种情况下没有参考语音,听音人只听失真语音,然后对该语音作出1-5分的评价。ACR评价方法不需要参考音,比较灵活,然而由于人对不同声音的喜好不同,这种灵活性会导致一定的不公平性。2.失真等级评价(Degradation Category Rating,DCR)DCR主要通过失真平均意见分(DMOS)来实现音质的主观评价。这种评价方法要求听音人在给失真语音打分前,先熟悉原始语音(参考语音),再将失真语音与原始语音的差异按一定标准来描述。DCR常用于评价诸如汽车噪声、街道噪声或其他说话人干扰等为背景噪声情况下的音质。噪声的类型和数量将直接影响评定的失真等级。3.相对等级评价(Comparison Category Rating,CCR)CCR方法主要采用相对平均意见分(CMOS)对音质进行主观评价。CCR类似于DCR,不同的是,在CCR方法中,原始语音和失真语音的播放次序是随机的,听音人不知道哪是原始音、哪是失真音。听音人只是在上一个音的基础上,评定出当前音相对于上一音的好坏。CCR方法允许对处理后语音(失真语音)的评价高于原始音的评价,因此,它可以用来评价具有噪声抑制和语音增强功能的编码器,也可以用来比较两种未知编码器的性能优劣。MOS得分方法是由CCITT推荐的主观评价方法,现已广泛作为不同系统之间的比较标准。它采用五级评分制MOS判分语音质量失真觉察程度收听注意力等级5优(excellent)不察觉可完全放松,不需要注意力4良(Good)刚有察觉需要注意,但不需明显集中3一般(Fair)有察觉且刚觉可恶中等程度的注意力2差(Poor)明显察觉且可厌但可忍受需要集中注意力1劣(Unacceptable)不可忍受即使努力去听,也很难听懂MOS评分中质量优表示重建语音和原始语音只有很少的细节差异,且若不进行对照听比就觉察不出这种差异质量良表示重建语音的畸变或失真不明显,不注意听感觉不到;质量一般表示重建语音有比较明显可感知的畸变成失真,但语音自然度和清晰度仍很好,且听起来没有疲劳感;质量差表示重建语音有较强的畸变或失真,听起来已有疲劳感;质量极差表示重建语音的质量极差,听觉无法忍受。在数字语音通信中,通常认为MOS分为4.0?4.5为高质量数字化语音,达到长途电话网的质量要求,接近于透明信道编码,也常称之为网络质量。MOS分为3.5分左右称为通信质量,这时能感到重建话音质量有所下降,但不妨碍正常通话,可以满足多数语音通信系统使用要求。MOS分3.0以下常称为合成语音质量,指一些声码器合成的语音所能达到的质量。它虽然有较高的可懂度,但自然度较差MOS得分法的优点是:?由于编码系统的质量是按数值大小等级排列,所以不同失真类型的编码系统就可以相互比较;?评测者只需实现进行简单训练,就可直接参与评测,因而容易完成.其缺点是:它把不同种类的失真混为一谈,没有指出失真的原因,不利于算法的改进。另外,测试条件的选择及其他一些因素会影响MOS方法的结果判断韵字测试(DRT)判断韵字测试是反映语音清晰度或可懂度的一种测试方法,它主要用于低速率语

文档评论(0)

34shart09 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档