- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
说话人日志中可靠静音模型语音活动检测方法
杨登舟;徐嘉明;刘加;夏善红
【摘要】为了解决传统语音活动检测(VAD)技术分离出的语音段掺杂静音以及帧
间频繁跳动产生短语音碎片的问题,提出在说话人日志中能够高效稳定地完成语音
活动检测的方法.该方法利用可靠静音模型对语音的区分度高这个特性,通过循环迭
代收敛得到稳定划分.建立静音和语音模型,通过帧间连续性原理进行不确定性解码
得到帧类属信息,开展低能量短时间语音碎片后处理完成语音活动检测.在富标注说
话人日志数据集上测试,实验结果表明,由于对静音模型的描述更加可靠,采用该方法
可以减少帧间跳动,减少静音模型对语音的吸收误判,性能比基于子带熵顺序统计滤
波(SE-OSF)方法提高明显.
【期刊名称】《浙江大学学报(工学版)》
【年(卷),期】2016(050)001
【总页数】7页(P151-157)
【关键词】说话人日志;富标注;语音活动检测(VAD);高斯模型;维特比解码
【作者】杨登舟;徐嘉明;刘加;夏善红
【作者单位】中国科学院电子学研究所,北京100190;中国科学院大学电子电气与
通信工程学院,北京100049;中国科学院电子学研究所,北京100190;中国科学院大
学电子电气与通信工程学院,北京100049;清华大学电子工程系,北京100084;中国
科学院电子学研究所,北京100190
【正文语种】中文
【中图分类】TN912
说话人日志(speakerdiarization,SD),即说话人分割聚类,确定一段语音音频数据的
各时间片段里分别是谁在说话(whospokewhen)[1].它是语音信号处理里面经常
遇到的问题,既可以作为语音识别和说话人识别的前端处理模块,也可以作为说话人
转换独立问题.美国国家标准及技术研究所(NationalInstituteofStandardsan
Technology,NIST)组织的富标注(richtranscription,RT)评测自从2002年开始将
说话人日志纳入评测范围,已经举办多年[1].通常说话人日志包含以下3个方面的内
容[2]:1)将语音按照语音和非语音切分成不同的片段,该过程叫做语音活动检测
(voiceactivitydetection,VAD)[3];2)将切分出来的语音按照不同说话人分割开
来,该过程称为说话人改变点检测(speakerchangedetection,SCD)[4];3)将同属
于某一个人的语音标注上相同的标签,称为说话人聚类(speakerclustering,SC)[5].
从时间顺序上来看,像计算机后台服务日志(每个时间段,产生了新的进程,销毁了无
用进程,并实时记录)一样,说话人日志需要告诉用户在每个时间片段,待处理语音中
是谁在说话.
早期的语音活动检测算法都是基于距离度量的.从语音中提取出时域的特征(包括短
时能量、过零率、过零率变化等)[6],通常信号能量高于噪声能量,信号过零率低于
高斯白噪声,信号过零率的变化比噪声大,通过设定门限值,直接作出决策判断.Shen
等[7-8]发现频域度量语音和噪声区分度较好的特征-频谱子带熵,信息论表明,信号
熵是表征信号不确定度的参量.由于噪声信号(如高斯白噪声)通常随机性比较大,而
语音是相对有规律性的信号,表现在频域,即噪声的频谱分布比较均匀,信号频谱分布
局部能量起伏较大,因此语音的熵比噪声的熵小得多.之后,Wang等[9-10]开始尝试
基于听觉特性的说话人识别中的常用特征——梅尔倒谱系数(Mel—frequence
cepstralcoefficients,MFCC),MFCC特征在说话人识别中的表现一直是不错
的.Ramirze等[11-12]考虑到语音信号帧间关联性强的特定,引入最早应用在图像
处理领域中的边缘检测算法——顺序统计滤波器(orderstatisticsfilter,OSF),将每
帧语音与基准帧的相似性距离送入顺序统计滤波器,对波动性较大的相似度距离进
行近邻平滑,得到相似度的优化值,然后与初始设置的门限作判决.
在说话人日志领域,语音端点检测算法基本都是基于模型的[13],建立语音模型和静
音模型,利用模型的稳定性去克服距离度量中所存在的帧间跳动缺陷,能够得到较好
的性能.考虑到说话人日志对语音端点检测要求的苛刻,本文提出基于可靠静音模型
(reliablesilencemodel,RSM)的方法,使说话人日志中语音端点检测更加准确,更加
稳定,得到更加合理
您可能关注的文档
- 地理试卷 _原创文档.pdf
- 诸葛烤鱼案例分析 .pdf
- 地理“会默写、不错字”知识点整理带答案 .pdf
- 请认真思考自己的科研方向和未来的学术定位,写一份学术生涯计划.pdf
- 地下室土方开挖方案 .pdf
- 请示汇报协调会模板 .pdf
- 在猎头公司做了三个月,然后我想辞职了 .pdf
- 在区中小学、幼儿园校长园长会议上的讲话 .pdf
- 土木工程建筑实习报告(8篇) .pdf
- 土地转租合同范本(真题5篇) .pdf
- 携程产品营销经理岗面试题库参考答案和答题要点.docx
- 携程产品经理岗面试题库参考答案和答题要点.docx
- 携程供应链管理专员岗面试题库参考答案和答题要点.docx
- 携程交易数据分析师岗面试题库参考答案和答题要点.docx
- 携程公共关系专员岗面试题库参考答案和答题要点.docx
- 携程内部培训专员岗面试题库参考答案和答题要点.docx
- 福建省福州市2023-2024学年高二上学期期末测试英语试卷(含答案).pdf
- 携程人力资源专员岗面试题库参考答案和答题要点.docx
- 福建省三明市2023-2024学年高二上学期期末测试英语试卷(含答案).docx
- 福建省三明市2023-2024学年高二上学期期末测试英语试卷(含答案).pdf
文档评论(0)