- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《结合瞬时频率的多通道语音识别规范》
编制说明
一、标准制定的必要性
本项目的主要目的在于克服现有技术的缺点与不足,
提供一种结合瞬时频率的多通道语音识别规范,丰富语音
信号的特征,提升语音识别的准确度。
二、项目背景及工作情况
(一)项目背景
近年来,基于深度神经网络(DeepNeuralNetwork,
DNN)的声学模型建模方法已经在语音识别领域取得了突出
的成果。长短时记忆模型(LongShortTermMemory,LSTM)
等复杂神经网络的提出进一步提升了声学模型的能力。然
而,由于背景噪声,混响以及人声干扰等因素,远场语音
识别任务仍然充满挑战。
与单麦克风采集语音信号相比,多麦克风录制的数据
可以提供额外的空间信息。因此,通常采用麦克风阵列提
升对远场语音信号的识别准确率。然而,现有技术中,对
于语音信号的特征提取不充分,影响语音识别的准确度。
(二)任务来源
为实现通过瞬时频率提取瞬时频率特征,并将瞬时频
率特征和Mel特征组合进行语音识别,丰富了语音信号的
1
特征,提升了语音识别的准确度。广州科慧健远医疗科技
有限公司提出制定该项团体标准。
(三)标准起草单位
本标准的主要起草单位是广州科慧健远医疗科技有限
公司、武汉市昱呈星医疗科技有限责任公司、广州言成智能
设备股份有限公司、科慧健远(广州)智能设备有限公司、
广州鼎成信息科技有限公司、广州科慧健远科学研究院有限
公司、广州鹏远智能设备有限公司、广州高远数控科技有限
公司、南京市恒临沣信息技术有限公司、上海赛欧信息科技
有限公司、雅泰歌思(上海)通讯科技有限公司、广州贝鼎
科技有限公司、江苏雅泰歌思通讯技术有限公司、英芙泰氪
(青岛)科技有限公司、永迅亚洲有限公司参与起草。
(四)标准研制过程及相关工作计划
1.团体标准《结合瞬时频率的多通道语音识别规
范》在2022年7月完成了项目可行性分析,标准的研制工
作于2022年7月正式启动,选择、确定技术水平高、责任
心强的专业技术人员,组建了标准起草小组。
2.2022年7月中旬提出了标准框架,并根据标准的
框架结构进行资料收集,编写了标准草案,向粤港澳标准
化与质量发展促进会递交资料提出立项申请。
3.2022年8月,完成标准草案的完善,并小范围内
部征求意见,根据反馈意见修改形成《征求意见稿》,全
面公开征求意见。
2
4.2022年10月,起草小组将根据《征求意见稿》的
反馈意见,对意见进行处理并进一步完善标准,形成标准
送审稿。
5.计划2022年10月提交标委会技术审查和报批。
6.计划2022年10月在全国团体标准信息平台公示
及发布。
三、标准制定的基本原则
本标准遵守和符合相关法律法规、强制性标准要求,充
分考虑目前国内外数字通信技术领域的特点和现状,结合工
作实践和相关研究成果而加以制定。
四、标准编写依据及主要内容
本标准按照GB/T1.1—2020的规定进行编写,相关内
容经过了验证,具有较强的可操作性和科学性。根据调研
情况,意见收集情况分析,确定标准的主要技术内容包括:
获取麦克风阵列中的每个单通道频域的离散语音信号作为
目标语音信号;估计每个单通道的目标语音信号的瞬时频
率,根据瞬时频率提取瞬时频率特征;根据每个单通道的
目标语音信号提取Mel特征;组合Mel特征和瞬时频率特
征,得到目标特征;将目标特征输入预设的声学模型,获
得语音识别结果。通过瞬时频率提取瞬时频率特征,并将
瞬时频率特征和Mel特征组合进行语音识别,丰富了语音
信号的特征,提升了语音识别的准确度。
3
五、与有关法律法规和强制性标准的关系
遵守和符合相关法律法规和强制性标准要求。
六、相关国内标准情况简要说明
目前国内尚无相关标准。
七、重大意见分歧的处理依据和结果
本标准在制定过程中未出现重大
文档评论(0)