- 1、本文档共61页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
随着现代智能汽车产业的蓬勃发展,智能座舱已成为汽车智能化的核心组成部
分,语音交互系统作为智能座舱最重要的交互手段和核心功能之一,它的性能与效
率直接影响着智能座舱的用户体验和智能化水平。然而,车内多说话人的低信噪比
环境给语音交互系统带来了巨大的挑战。目前车载语音交互系统仍然存在由于多说
话人语音信号混叠而造成的“听不懂、误唤醒、总出错”的困难与挑战。为了解决
这一问题,本文针对车载环境中的多说话人情景,提出了一种语音增强与识别的方
法,主要研究内容如下:
(1)针对车载多说话人的低信噪比环境中,噪声源复杂造成的指令识别不准确
问题,提出了一种基于生成对抗网络的语音增强模型。首先,设计了一种融合非局
NLCS_SEGAN
部注意力机制和卷积注意力机制的联合注意力模块(),共同增强目
标说话人语音,并减少了注意力机制的使用层数;然后,在NLCS_SEGAN的基础
上,添加干净语音与噪声语音的距离损失计算,将其整合到网络的损失函数中,引
导网络学习目标语音的特征,有效解决了多说话人的低信噪比条件下语音特征难以
学习的问题。实验结果表明,相比于基线网络,加入改进的注意力机制后,增强后
的语音信号PESQ提高了41.3%、SSNR提升了2倍;距离损失函数的添加,使PESQ、
SSNR值进一步提升了17.7%、20.0%。
(2)针对车载多说话人环境下语音信号的混叠和干扰,导致车载语音交互系统
难以有效识别目标语音指令的问题,提出了一种基于改进梅尔倒谱系数的车载多说
话人语音识别方法。首先,在特征提取的过程中采用离散余弦变换的方法对语音信
号进行时频转换,改善特征提取过程中频谱泄露的问题;其次,根据车载麦克风的
排列方式,将约束最小方差波束形成技术引入到特征提取的过程中;最后,设计上
下文联系的算法,以减轻目标说话人被掩盖的程度。实验结果表明,相较于原始噪
声,语音识别准确率平均值提升了35.7%;相较于未改进前的特征提取方法,语音识
别准确率平均值提升了25%。在基于联合注意力机制的语音增强方法的基础上进行
特征提取,准确率进一步提升了15.5%,语音识别准确率高达94.5%。
通过对以上研究内容进行仿真实验,验证了本文所提出的基于车载多说话人环
境语音增强与识别算法的卓越性能。该算法有效增强了多说话人场景下的目标语音,
提升了车辆语音交互系统对驾驶员指令识别的准确度,对智能座舱的智能化发展具
有重要意义。
语音增强;语音识别;生成对抗网络;车载环境;注意力机制
I
Abstract
Withthevigorousdevelopmentofmodernintelligentvehicles,theintelligent
cockpithasbecomethecorecomponentoftheintelligentevolutionoftheautomobile.The
voiceinteractionsystemasakeylinkintheintelligentcockpit,playstheroleof
interactivetoolandcorefunctionality,whichdirectlyaffectstheuserexperienceandlevel
ofintelligence.Withthecontinuousprogressoftechnologyandpeoplespursuitof
intelligentexperience,peoplesexpectationsofinteractionarealsosignificantlyincreasing.
However,thelowSNRenvironmentwithmu
文档评论(0)