音频数据标注规范-离线标注(1).docx

下载文档

0
0
约1.81千字
约 4页
2024-11-30 发布于湖北
举报
版权申诉
保障服务

音频数据标注规范-离线标注(1).docx

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

腾讯音频标注规范

标注内容

本次针对语音标注以下内容：

有效性判定：有效，无效。有效则进行后续标注。

无效的判别标准：

无法听清音频中的内容（不论部分还是全部）

音频为与普通话差异较大的方言，如：粤语、上海话、闽南语等

音频中出现了除了中文、英文之外的语言

音频中无人声

音频中全部都是歌曲、电视声等

背景人声音量大于主说话人1/4的

音频中内容仅有一个汉字或一个英文单词

音频中内容仅有一些语气词，例如：嗯，啊，哈

对于有效的音频：

进行分段标注：分段的标准：两个语音段中间无发音时长大于等于1秒

PS：分片后，某个分片内仅有一个汉字或一个英文单词，此分片不进行标注。

每个分段标注内容：

标注文本：语音对应的文本

性别、儿童：发音人的性别，发音人是否为儿童

语言：中文、英文、中英

是否有口音：发音人发音是否有口音

是否有变音：发音人是正常人声，还是娱乐性质的变音

发音边界：按照规定标记处发音的起点和终点（毫秒）

标注内容具体说明

标注文本

正常标注中，

文本中不能出现除规定使用的标点符号（”_”（英文短下划线）、“”（英文空格）、“’”（英文单引号））之外的符号（如换行，逗号等），可以出现空格

标注文本以发音人实际发音为准

缺字或者多字时，不用进行人工纠正（即加字或者去除字）

儿童发音有变音、走音的情况下，请按照正确发音标注文字（例如：音调上有变化）

文本中出现英文时，字母全部大写，在英文停顿处，使用符号”_”（英文中的下划线，不需要引号）来进行标注。

如：

NBA，标注为N_B_A

Iloveyou标注为I_LOVE_YOU

我爱China标注为我爱CHINA

我要听ABC标注为我要听A_B_C

出现语气词，尽量选用带“口”字部首的字

阿拉伯数据标注为中文，

如1998年：标注为：一九九八年

数字24标注为：二十四

出现无法辨别的词汇，如“你”“您”的时候，取符合语境的字即可

出现能确定发音，无法确定字的情况，如果是歌名、专有名词、地名等，可以百度一下，只要真实出现过即可；如果还是无法确定具体字，可以使用同音字代替（要是同音字发音和音调都完全相同的）

儿化音，不标注“儿”，例如，发音为“听歌儿”，标注为“听歌”

如果音频开始、结尾处部分发音出现截断的情况，若可以听出截断发音，则进行标注，若听不出截断发音（需要靠猜测或者推测）则发音边界标注时，将截断的音刨除，文本标注也只标注发音边界内的内容。

出现多人说话的场景

当其他人说话声音小于主发音人音量1/4时，其他人发音视为背景噪声，不进行标注。

性别、儿童

标注为“男”、“女”、“儿童”（如果出现无法辨别的中性声音，请标注为女）

多发音人以主发音人为准。

语言

标注为

中文：全部都是中文

英文：全部都是英文

中英：中英文混合

是否有口音

标注为“是”，“否”，无法确认时，请标注为“否”

是否有变音

标注为“是”，“否”，无法确认时，请标注为“否”

发音边界

标注句中发音部分的起点、终点，精度到毫秒，如[1.234][3.456]（使用英文的中括号，两个为一组），

交付具体说明

每批数据交付两个txt文本，一个为有效标注文本，一个为无效标注文本

样例如下（中间分隔符为“\t”，换行统一使用“\n”）：

PS：同一个音频多个片段，每个片段一行，名字不用单独处理，发音边界不同即可。

对于试标结果的格式，我这边要说面一下

1）所有文件、文件夹，只能出现?英文?和??“_”，不要出现中文及其他格式

2）标注内容按照标注规范中要求的顺序进行排版

文本编码要求为utf-8

要求句准确率大于95%

有效时长统计方法：

有效时间段：通过有效标注的发音边界来取时间段，

最后的有效时长：为全部有效发音段的时长和。

具体如下：

1）以人有意义发音的开始、结束点为计时起点和终点

2）起点和终点距离人发音，若无法精确判定，可以有100ms左右的静音（最长不超过200ms），此处静音计入有效小时

3）人发音过程中，不能出现超过1s的停顿，若有超过1s以上的停顿，则停顿的时间不算入有效时长

4）数据中小于等于2个字和全部是语气词的音频，总时长小于1小时，多出部分为无效数据

5）若背景要求为安静，出现明显噪声的总时长不能多余0.5小时，多出部分为无效数据

您可能关注的文档

文档评论（0）

宝yan + 关注: 实名认证

内容提供者

好文件大家想

咨询Ta 进入空间

1亿VIP精品文档

更多 >

音频数据标注规范-离线标注(1).docx