- 1、本文档共81页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多层次说话人分割及相关算法研究
Y8281明
洳;:j.唼
硕士学位沦文
⑨
论文邀II 童墨超丛生垒坌型丛担苤显造盟窭
作拧姚靠————艟———卫———一
描婶教师——』L堂_』L』此型』一
——』L塑堕_垫挂一
学科{奇业L———』U垃&皇盟——一
所在学院——』匕鞋匹吐生鱼挂盎生Ⅸ|_一
I§耍日捌.2Q竖笙3臼
摘要
说话人谈别技术被认为是最自然的生物认证技术。它是一项根据语音中反映的泷话人
生理和行为特征的语音参数,自动议别说话人身份的技术。说话人检索可以认为是自动
说话人识别技术的一种具体应用,然而,说话人识别技术应用于实际环境,还存在着很
多难点,说话人分割技术的不成熟是其中的重要原因之 。
本文主要针对说话人分割中存在的困难和现有说话人分割方法中的不足,即说话人分
割时可用信息过少、说话人分割易受噪音和通道等局外变量的影响以及基于距离的分割
和基于模型的分割方法本身的不完善,提出了‘种多层次的说话人分割框架,并对其中
的褶关算法进行了研究。本文的主要j:作包括:
第一、提出了一种多层次的说话人分割框架,利用分层的结构特点和各层引入的辅助
信息,解决说话人分割时可用信息过少的问题;利用语音检测和通道聚类消除噪音和通
道的干扰:用预分割和分治的方法来弥补分割方法本身的不完善。
第二、研究语音和非语音的特征分布及其突变规律;介绍和提出了一种基Tx。分椎的
突变检测和一种语音/非语音决策树;提出了基于Y2分布和决策树的语音检测的方法,通
过检测音频中的声学突变来获得语音端点,并用决策树对语音和非语音进行分类。
第三、探索了通道差异对说话人议别及说话人分割的影响,分析了解决方法通道补偿
和通道聚类的作用和适用条件;将Anchor模型的思想引入到通道聚类研究中,并提出了
基于Anchor模型的通道聚类。
第四、提出了。种基于Pitch的快速说话人分割方法,在理想环境中能既快又准的完
成说话人分割。
第五、对Anchor模型的方法进行了改进,提出了一种基于序数比较的距离乃法,提
高了And,or模型在说话人确认中的性髓和鲁棒牲。
本文得到以F基金资助:国家自然科学基金、国家自然科学基金爵年科
关键词:说话人识别说话人检索浣话人分割Andlor模型语爵检测
第i页,共72页
凡BSTRA(+T
ABSTRACT
identifiesorvel’flies their
Speaker peopleby voice.is
recognition(SR),which regarded
a8themostnaturalandconvenientolle themethodsof
among biometrics.Speakerindexing
as
canbeviewedan ofautomatic with
application speakerrecognition.However,in
dealing
the and realaudio needstosolve
o
文档评论(0)