说话人日志中可靠静音模型语音活动检测方法 .pdf

说话人日志中可靠静音模型语音活动检测方法 .pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

说话人日志中可靠静音模型语音活动检测方法

杨登舟;徐嘉明;刘加;夏善红

【摘要】为了解决传统语音活动检测(VAD)技术分离出的语音段掺杂静音以及帧

间频繁跳动产生短语音碎片的问题,提出在说话人日志中能够高效稳定地完成语音

活动检测的方法.该方法利用可靠静音模型对语音的区分度高这个特性,通过循环迭

代收敛得到稳定划分.建立静音和语音模型,通过帧间连续性原理进行不确定性解码

得到帧类属信息,开展低能量短时间语音碎片后处理完成语音活动检测.在富标注说

话人日志数据集上测试,实验结果表明,由于对静音模型的描述更加可靠,采用该方法

可以减少帧间跳动,减少静音模型对语音的吸收误判,性能比基于子带熵顺序统计滤

波(SE-OSF)方法提高明显.

【期刊名称】《浙江大学学报(工学版)》

【年(卷),期】2016(050)001

【总页数】7页(P151-157)

【关键词】说话人日志;富标注;语音活动检测(VAD);高斯模型;维特比解码

【作者】杨登舟;徐嘉明;刘加;夏善红

【作者单位】中国科学院电子学研究所,北京100190;中国科学院大学电子电气与

通信工程学院,北京100049;中国科学院电子学研究所,北京100190;中国科学院大

学电子电气与通信工程学院,北京100049;清华大学电子工程系,北京100084;中国

科学院电子学研究所,北京100190

【正文语种】中文

【中图分类】TN912

说话人日志(speakerdiarization,SD),即说话人分割聚类,确定一段语音音频数据的

各时间片段里分别是谁在说话(whospokewhen)[1].它是语音信号处理里面经常

遇到的问题,既可以作为语音识别和说话人识别的前端处理模块,也可以作为说话人

转换独立问题.美国国家标准及技术研究所(NationalInstituteofStandardsan

Technology,NIST)组织的富标注(richtranscription,RT)评测自从2002年开始将

说话人日志纳入评测范围,已经举办多年[1].通常说话人日志包含以下3个方面的内

容[2]:1)将语音按照语音和非语音切分成不同的片段,该过程叫做语音活动检测

(voiceactivitydetection,VAD)[3];2)将切分出来的语音按照不同说话人分割开

来,该过程称为说话人改变点检测(speakerchangedetection,SCD)[4];3)将同属

于某一个人的语音标注上相同的标签,称为说话人聚类(speakerclustering,SC)[5].

从时间顺序上来看,像计算机后台服务日志(每个时间段,产生了新的进程,销毁了无

用进程,并实时记录)一样,说话人日志需要告诉用户在每个时间片段,待处理语音中

是谁在说话.

早期的语音活动检测算法都是基于距离度量的.从语音中提取出时域的特征(包括短

时能量、过零率、过零率变化等)[6],通常信号能量高于噪声能量,信号过零率低于

高斯白噪声,信号过零率的变化比噪声大,通过设定门限值,直接作出决策判断.Shen

等[7-8]发现频域度量语音和噪声区分度较好的特征-频谱子带熵,信息论表明,信号

熵是表征信号不确定度的参量.由于噪声信号(如高斯白噪声)通常随机性比较大,而

语音是相对有规律性的信号,表现在频域,即噪声的频谱分布比较均匀,信号频谱分布

局部能量起伏较大,因此语音的熵比噪声的熵小得多.之后,Wang等[9-10]开始尝试

基于听觉特性的说话人识别中的常用特征——梅尔倒谱系数(Mel—frequence

cepstralcoefficients,MFCC),MFCC特征在说话人识别中的表现一直是不错

的.Ramirze等[11-12]考虑到语音信号帧间关联性强的特定,引入最早应用在图像

处理领域中的边缘检测算法——顺序统计滤波器(orderstatisticsfilter,OSF),将每

帧语音与基准帧的相似性距离送入顺序统计滤波器,对波动性较大的相似度距离进

行近邻平滑,得到相似度的优化值,然后与初始设置的门限作判决.

在说话人日志领域,语音端点检测算法基本都是基于模型的[13],建立语音模型和静

音模型,利用模型的稳定性去克服距离度量中所存在的帧间跳动缺陷,能够得到较好

的性能.考虑到说话人日志对语音端点检测要求的苛刻,本文提出基于可靠静音模型

(reliablesilencemodel,RSM)的方法,使说话人日志中语音端点检测更加准确,更加

稳定,得到更加合理

文档评论(0)

135****5548 + 关注
官方认证
内容提供者

各类考试卷、真题卷

认证主体社旗县兴中文具店(个体工商户)
IP属地河南
统一社会信用代码/组织机构代码
92411327MAD627N96D

1亿VIP精品文档

相关文档