网站大量收购独家精品文档,联系QQ:2885784924

DB34_T 4554-2023 儿童智能语音识别技术规范.docxVIP

DB34_T 4554-2023 儿童智能语音识别技术规范.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

ICS35.240CCSL77

34

安徽省地方标准

DB34/T4554—2023

儿童智能语音识别技术规范

Specificationforintelligentspeechrecognitiontechnologyofchildren

2023-10-07发布2023-11-07实施

安徽省市场监督管理局发布

I

DB34/T4554—2023

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由安徽淘云科技股份有限公司提出。

本文件由安徽省经济和信息化厅归口。

本文件起草单位:安徽淘云科技股份有限公司、科大讯飞股份有限公司、安徽工程大学计算机与信息学院、合肥巴灵瑞教育科技有限公司、合肥赑歌数据科技有限公司、安徽长三角数据感知与治理研究院、江苏理工学院、合肥师范学院、合肥智能语音创新发展有限公司。

本文件主要起草人:王晓斐、刘庆升、朱翠玲、叶娟、方明、叶剑鸣、陶皖、陈慧珺、毛四方、吕雪、胡连峰、宋若淼、高群、谢秀琴、姜志文、孙艳、张泽之、武方芳。

DB34/T4554—2023

1

儿童智能语音识别技术规范

1范围

本文件规定了儿童智能语音识别技术的术语和定义、技术路线和要求。

本文件适用于儿童智能语音识别技术的应用。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其必威体育精装版版本(包括所有的修改单)适用于本文件。

GB/T21023-2007中文语音识别系统通用技术规范

3术语和定义

下列术语和定义适用于本文件。

3.1

语音智能识别技术Speechintelligentrecognitiontechnology

通过人工智能技术识别声音,并将声音信号转化为文字或指令的过程。

3.2

声学模型Acousticmodel

输入音频经特征提取和标注后,进行深度学习获得的模型参数即为声学模型;其中,特征提取是将音频数据转换为特征向量;标注是将音频数据上的文本与其对应的特征帧对齐。

注1:声学模型的训练过程包括:数据录制、数据标注、特征提取和模型训练。

注2:声学模型训练过程中提取特征通常使用Mel频率倒谱系数(MFCC)等特征提取方法。

注3:深度学习也指模型训练,是使用已对齐数据训练声学模型,通常使用深度学习模型包括卷积神经网络(CNN)、长短时记忆网络(LSTM)等模型。

3.3

语言模型Languagemodel

利用自然语言处理技术,在词级别上对文本进行建模,输出概率最大的词序列,以解决声学模型无法解决的同音词、近义词等因素干扰的歧义性问题;其中,建模的过程是根据语言学规则、语料库语言统计等多种因素,以概率形式估计一个给定文本的出现概率,并根据这个概率来确定识别结果。

4技术路线

儿童语音智能识别的技术路线见图1。

2

DB34/T4554—2023

图1儿童语音智能识别技术路线

5要求

5.1语音信号采集

5.1.1采样率应为16KHz,采样位深应为16bit。

5.1.2音频采集应保证完整,避免截断或缺失情况的发生。

5.1.3人声和环境噪音的信噪比应不低于10dB。

5.1.4人声应是汉语通用语发声,应满足GB/T21023-2007中6.1(b)的要求。

5.1.5应支持对3~14岁年龄段人群语音信号的采集。

5.2信号处理和特征提取

5.2.1语音信号中有回声存在,应对语音信号进行回声消除处理。

5.2.2语音信号中有较大混响存在,应对语音信号进行去混响处理。

5.2.3语音信号中存在较大周围噪声,应对语音信号进行降噪处理。

5.2.4语音信号中存在特定波段频率的干扰,应对其进行滤波处理。

5.2.5在采集特定方向的语音信号时,应对语音信号进行增强处理,从而起到加强特定方向的语音信号,并抑制其他方向的语音信号。

5.2.6在进行批量语音信号处理时,应根据指定的语音信号长度(时间段或者采样数)进行分段处理。

5.2.7将语音信号从时域转换到频域,提取语音信号中的特征向量。

5.3识别

5.3.1概述

对输入的语音信号,在由语句或者单词序列构成的空间当中,按照一定的优化准则,并且根据声学模型

文档评论(0)

S.s + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档