音频数据标注规范-离线标注(1).docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

腾讯音频标注规范

标注内容

本次针对语音标注以下内容:

有效性判定:有效,无效。有效则进行后续标注。

无效的判别标准:

无法听清音频中的内容(不论部分还是全部)

音频为与普通话差异较大的方言,如:粤语、上海话、闽南语等

音频中出现了除了中文、英文之外的语言

音频中无人声

音频中全部都是歌曲、电视声等

背景人声音量大于主说话人1/4的

音频中内容仅有一个汉字或一个英文单词

音频中内容仅有一些语气词,例如:嗯,啊,哈

对于有效的音频:

进行分段标注:分段的标准:两个语音段中间无发音时长大于等于1秒

PS:分片后,某个分片内仅有一个汉字或一个英文单词,此分片不进行标注。

每个分段标注内容:

标注文本:语音对应的文本

性别、儿童:发音人的性别,发音人是否为儿童

语言:中文、英文、中英

是否有口音:发音人发音是否有口音

是否有变音:发音人是正常人声,还是娱乐性质的变音

发音边界:按照规定标记处发音的起点和终点(毫秒)

标注内容具体说明

标注文本

正常标注中,

文本中不能出现除规定使用的标点符号(”_”(英文短下划线)、“”(英文空格)、“’”(英文单引号))之外的符号(如换行,逗号等),可以出现空格

标注文本以发音人实际发音为准

缺字或者多字时,不用进行人工纠正(即加字或者去除字)

儿童发音有变音、走音的情况下,请按照正确发音标注文字(例如:音调上有变化)

文本中出现英文时,字母全部大写,在英文停顿处,使用符号”_”(英文中的下划线,不需要引号)来进行标注。

如:

NBA,标注为N_B_A

Iloveyou标注为I_LOVE_YOU

我爱China标注为我爱CHINA

我要听ABC标注为我要听A_B_C

出现语气词,尽量选用带“口”字部首的字

阿拉伯数据标注为中文,

如1998年:标注为:一九九八年

数字24标注为:二十四

出现无法辨别的词汇,如“你”“您”的时候,取符合语境的字即可

出现能确定发音,无法确定字的情况,如果是歌名、专有名词、地名等,可以百度一下,只要真实出现过即可;如果还是无法确定具体字,可以使用同音字代替(要是同音字发音和音调都完全相同的)

儿化音,不标注“儿”,例如,发音为“听歌儿”,标注为“听歌”

如果音频开始、结尾处部分发音出现截断的情况,若可以听出截断发音,则进行标注,若听不出截断发音(需要靠猜测或者推测)则发音边界标注时,将截断的音刨除,文本标注也只标注发音边界内的内容。

出现多人说话的场景

当其他人说话声音小于主发音人音量1/4时,其他人发音视为背景噪声,不进行标注。

性别、儿童

标注为“男”、“女”、“儿童”(如果出现无法辨别的中性声音,请标注为女)

多发音人以主发音人为准。

语言

标注为

中文:全部都是中文

英文:全部都是英文

中英:中英文混合

是否有口音

标注为“是”,“否”,无法确认时,请标注为“否”

是否有变音

标注为“是”,“否”,无法确认时,请标注为“否”

发音边界

标注句中发音部分的起点、终点,精度到毫秒,如[1.234][3.456](使用英文的中括号,两个为一组),

交付具体说明

每批数据交付两个txt文本,一个为有效标注文本,一个为无效标注文本

样例如下(中间分隔符为“\t”,换行统一使用“\n”):

PS:同一个音频多个片段,每个片段一行,名字不用单独处理,发音边界不同即可。

对于试标结果的格式,我这边要说面一下

1)所有文件、文件夹,只能出现?英文?和??“_”,不要出现中文及其他格式

2)标注内容按照标注规范中要求的顺序进行排版

文本编码要求为utf-8

要求句准确率大于95%

有效时长统计方法:

有效时间段:通过有效标注的发音边界来取时间段,

最后的有效时长:为全部有效发音段的时长和。

具体如下:

1)以人有意义发音的开始、结束点为计时起点和终点

2)起点和终点距离人发音,若无法精确判定,可以有100ms左右的静音(最长不超过200ms),此处静音计入有效小时

3)人发音过程中,不能出现超过1s的停顿,若有超过1s以上的停顿,则停顿的时间不算入有效时长

4)数据中小于等于2个字和全部是语气词的音频,总时长小于1小时,多出部分为无效数据

5)若背景要求为安静,出现明显噪声的总时长不能多余0.5小时,多出部分为无效数据

文档评论(0)

宝yan + 关注
实名认证
内容提供者

好文件大家想

1亿VIP精品文档

相关文档