基于ResNet模型的儿童口吃类型识别研究.docx

基于ResNet模型的儿童口吃类型识别研究.docx

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
? ? 基于ResNet模型的儿童口吃类型识别研究 ? ? 程 振,蒋 作,潘文林,马孟星 (1.云南民族大学 电气信息工程学院,云南 昆明 650500;2.云南民族大学 数学与计算机科学学院,云南 昆明 650500) 口吃是一种交流障碍,世界卫生组织将其定义为:“一种言语节奏的紊乱,即口吃者因为不自主的声音重复、延长或中断,无法准确表达自己所想表达的内容”.口吃主要表现在说话过程中句子开头的发音困难,患者说话节律异常,表达不畅,整个过程中反复停顿.世界上约有1%的人受口吃困扰,给患者在工作和社交造成极大不便.口吃在2.5~6岁之间的儿童发病率高达5%,其中20%的儿童口吃患者,因没有被正确对待和治疗,会逐步发展为成年阶段的口吃,最终成为终生口吃.因此,在儿童早期发现并解决语言障碍问题则至关重要.目前临床医学和心理学对儿童口吃做了大量的研究,其工作集中在儿童患者口吃的病因、病理机制、心理疏导、口吃矫正方法等方面. 然而在自然语言处理领域,针对儿童口吃语音识别研究及相应语料资源的构建较少.为解决稀缺口吃语料库的问题,文中对21名5~8岁的儿童进行了语音采集,再使用语音合成技术将该数据集合成儿童口吃语料库,并对该语料库进行标注.然后基于语料库,使用ResNet模型识别口吃语段,并对识别结果进行分析. 1 相关工作 医学领域对于儿童口吃的理论研究十分深入,为自然语言处理的领域奠定了基础,但是儿童口吃语料资源的匮乏限制了儿童口吃类型识别的研究.因此,国内外研究者对口吃语音语料库的构建和口吃语音识别展开了相应的研究. 1.1 口吃语料库构建研究现状 1995年,Howell等[1]创新地开启口吃自动识别研究,并于2009年创建了伦敦大学学院口吃演讲档案—UCLASS.UCLASS包含139名参与者的音频样本,参与者是患有不同严重程度的口吃患者,年龄在8到18岁之间.目前大多数的口吃研究都围绕该语料库展开[2],但因其标注只包含采集时的地点、性别等信息,未对语音内口吃发生的时间和类型进行标注,对口吃类型的检测效果甚微.最近, Kourkounakis Tedd等[3]在2020年创建了LibriStutter语料库,该语料库是由加拿大女王大学的AIIM实验室创建,并对该语料库进行了口吃类型的标注和相应的识别研究. 针对汉语口吃语料库的工作较少,Fang[4]使用了由天津医科大学提供的50个口吃患者的400段口吃语音作为研究数据.Zhang等[5]采集了由北京林教授言语训练中心的59名口吃患者的录音作为研究数据.由于以上的口吃研究语料不针对儿童口吃研究,不能直接用于儿童口吃识别工作,因此文中将构建一个基于儿童语音的口吃语料库. 1.2 口吃识别研究现状 早期的研究中,研究者们集中在区分口吃的可行性上,对一组特定的口吃词进行训练和测试.Howell等[6]第一次尝试使用一组预定的单词训练人工神经网络定位口吃,从这些数据中提取音频的自相关特征、光谱信息和包络参数,每一个都被用作一个完全连接的人工神经网络(ANN)的输入.结果表明该模型在严重口吃下的分类效果最好,最大检测率为82%.Ravikuma等[7]使用了多种音节重复分类器,包括隐马尔可夫模型(HMM)和使用梅尔频率倒序系数(MFCC)特征的支持向量机(SVM)[8].在使用支持向量机对15名参与者进行口吃类型分类时获得了最佳结果,准确率达到94.35%.在中国口吃检测研究中,Zhang等[9]通过建立HMM的发音质量评估框架,并基于改进的算法使重复性口吃的检测错误率降低18%.在Chee[10]发表的口吃识别研究综述中表明,限于当时技术条件和算力的匮乏,HMM在口吃识别研究领域表现最佳. 近年,随着计算机算力的提升,自动语音识别(ASR)和自然语言处理(NLP)等深度学习技术的发展,深度学习在口吃分类和识别方面效果显著,逐渐成为口吃研究者采用的主流手段.其中Heeman[11]将语言病理学家的注释与对应词合并,将基线提升了7.5%.Kourkounakis等[3]在2020年使用的FluentNet对LibriStutter语料库的检测准确率达到了86.7%,在多类型口吃检测中达到最优. 传统的语音识别需要提取MFCC等特征信息训练声学模型,然后根据语言中词与词的关系训练语言模型,保证得出正确语法的句子.但由于口吃语音的特殊性和受计算机视觉图像识别的启发,本文将只关注声学模型上的特征,将语音转换成语谱图,使用ResNet模型对语谱特征提取并识别. 2 儿童口吃语料库构建 本文首先对儿童语音进行实地采集,然后采用语音合成技术生成口吃类型语音,再将其随机填充到采集的儿童语音中,模拟真实口吃语音,最后对构建口吃语音及真实口吃语音的语谱图进行相似度分析. 2.1 语音采集 本文研究所

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档