- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
ICS17.140
CCSA65/74
XXXX
团体标准
T/XXXXXX—20XX
结合瞬时频率的多通道语音识别规范
Specificationforinstantaneousfrequencymultichannelspeech
recognition
2022-XX-XX发布2022-XX-XX实施
粤港澳标准化与质量发展促进会发布
T/XXXXXX—20XX
前 言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规
定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由广州科慧健远医疗科技有限公司提出。
本文件由粤港澳标准化与质量发展促进会归口。
本文件起草单位:广州科慧健远医疗科技有限公司、武汉市昱呈星医疗科技有限责任公司、广州言
成智能设备股份有限公司、科慧健远(广州)智能设备有限公司、广州鼎成信息科技有限公司、广州科
慧健远科学研究院有限公司、广州鹏远智能设备有限公司、上海赛欧信息技术有限公司、广州贝鼎科技
有限公司、江苏雅泰歌思通讯技术有限公司、南京市恒临沣信息技术有限公司、广州高远数控科技有限
公司、雅泰歌思(上海)通讯科技有限公司、楚科云(武汉)科技发展有限公司、瑞湖智科数据(苏州)
有限公司、楚瑞智能科技(苏州)有限公司、广东问鼎科技发展有限公司、英芙泰氪(青岛)科技有
限公司、永迅亚洲有限公司
本文件主要起草人:陈宜国、黄建恺、杨宇光、陈亮、闫景浩、黄鑫、卞成慧、张杨、徐江涛、朱
杰志、温炜杰、陈林晓
Ⅲ
T/XXXXXX20XX
—
结合瞬时频率的多通道语音识别规范
1范围
本文件规定了结合瞬时频率的多通道语音识别规范的术语和定义、MEL特征提取方式、特征组合方
式、语音识别方式、语音信号特征识别技术参数规范性等进行规范。
本文件适用于语音识别技术或方法等。
2规范性引用文件
本文件没有规范性引用文件。
3术语和定义
下列术语和定义适用于本文件。
3.1瞬时频率(Instantaneousfrequency)
将实数讯号表示为对应的复数讯号,即可定义复数讯号的大小与相位,将实数讯号的瞬时数据求出
的实数讯号的解析讯号的极坐标表示。
3.2MEL(Mel)
是Maya内置的一种Cammands命令语言,maya的所有操作包括maya的窗口都是基于Mel命令生成的。
3.3原始频域(Originalfrequencydomain)
描述原始获得的语音信号在频率方面特性时用到的一种坐标系。
4获取原始频域的目标语音信号
4.1获取麦克风阵列中的每个单通道时域的语音信号,作为原始时域语音信号。
4.2对原始时域语音信号进行预加重处理和分帧,对分帧后的每帧语音信号加窗,对加窗后的每帧语音
信号进行快速傅里叶变换,得到每个单通道频域的语音信号,作为原始频域语音信号。
4.2.1预加重的目的是对语音信号的高频部分进行加重,去除口唇辐射的影响,增加语音信号的高频分
辨率,保持从低频到高
文档评论(0)