- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
腾讯音频标注规范
标注内容
本次针对语音标注以下内容:
有效性判定:有效,无效。有效则进行后续标注。
无效的判别标准:
无法听清音频中的内容(不论部分还是全部)
音频为与普通话差异较大的方言,如:粤语、上海话、闽南语等
音频中出现了除了中文、英文之外的语言
音频中无人声
音频中全部都是歌曲、电视声等
背景人声音量大于主说话人1/4的
音频中内容仅有一个汉字或一个英文单词
音频中内容仅有一些语气词,例如:嗯,啊,哈
对于有效的音频:
进行分段标注:分段的标准:两个语音段中间无发音时长大于等于1秒
PS:分片后,某个分片内仅有一个汉字或一个英文单词,此分片不进行标注。
每个分段标注内容:
标注文本:语音对应的文本
性别、儿童:发音人的性别,发音人是否为儿童
语言:中文、英文、中英
是否有口音:发音人发音是否有口音
是否有变音:发音人是正常人声,还是娱乐性质的变音
发音边界:按照规定标记处发音的起点和终点(毫秒)
标注内容具体说明
标注文本
正常标注中,
文本中不能出现除规定使用的标点符号(”_”(英文短下划线)、“”(英文空格)、“’”(英文单引号))之外的符号(如换行,逗号等),可以出现空格
标注文本以发音人实际发音为准
缺字或者多字时,不用进行人工纠正(即加字或者去除字)
儿童发音有变音、走音的情况下,请按照正确发音标注文字(例如:音调上有变化)
文本中出现英文时,字母全部大写,在英文停顿处,使用符号”_”(英文中的下划线,不需要引号)来进行标注。
如:
NBA,标注为N_B_A
Iloveyou标注为I_LOVE_YOU
我爱China标注为我爱CHINA
我要听ABC标注为我要听A_B_C
出现语气词,尽量选用带“口”字部首的字
阿拉伯数据标注为中文,
如1998年:标注为:一九九八年
数字24标注为:二十四
出现无法辨别的词汇,如“你”“您”的时候,取符合语境的字即可
出现能确定发音,无法确定字的情况,如果是歌名、专有名词、地名等,可以百度一下,只要真实出现过即可;如果还是无法确定具体字,可以使用同音字代替(要是同音字发音和音调都完全相同的)
儿化音,不标注“儿”,例如,发音为“听歌儿”,标注为“听歌”
如果音频开始、结尾处部分发音出现截断的情况,若可以听出截断发音,则进行标注,若听不出截断发音(需要靠猜测或者推测)则发音边界标注时,将截断的音刨除,文本标注也只标注发音边界内的内容。
出现多人说话的场景
当其他人说话声音小于主发音人音量1/4时,其他人发音视为背景噪声,不进行标注。
性别、儿童
标注为“男”、“女”、“儿童”(如果出现无法辨别的中性声音,请标注为女)
多发音人以主发音人为准。
语言
标注为
中文:全部都是中文
英文:全部都是英文
中英:中英文混合
是否有口音
标注为“是”,“否”,无法确认时,请标注为“否”
是否有变音
标注为“是”,“否”,无法确认时,请标注为“否”
发音边界
标注句中发音部分的起点、终点,精度到毫秒,如[1.234][3.456](使用英文的中括号,两个为一组),
交付具体说明
每批数据交付两个txt文本,一个为有效标注文本,一个为无效标注文本
样例如下(中间分隔符为“\t”,换行统一使用“\n”):
PS:同一个音频多个片段,每个片段一行,名字不用单独处理,发音边界不同即可。
对于试标结果的格式,我这边要说面一下
1)所有文件、文件夹,只能出现?英文?和??“_”,不要出现中文及其他格式
2)标注内容按照标注规范中要求的顺序进行排版
文本编码要求为utf-8
要求句准确率大于95%
有效时长统计方法:
有效时间段:通过有效标注的发音边界来取时间段,
最后的有效时长:为全部有效发音段的时长和。
具体如下:
1)以人有意义发音的开始、结束点为计时起点和终点
2)起点和终点距离人发音,若无法精确判定,可以有100ms左右的静音(最长不超过200ms),此处静音计入有效小时
3)人发音过程中,不能出现超过1s的停顿,若有超过1s以上的停顿,则停顿的时间不算入有效时长
4)数据中小于等于2个字和全部是语气词的音频,总时长小于1小时,多出部分为无效数据
5)若背景要求为安静,出现明显噪声的总时长不能多余0.5小时,多出部分为无效数据
您可能关注的文档
最近下载
- 升压站(35KV、站用变、施工变、接地变、SVG)设备安装施工方案.docx
- 新教科版六上科学4.4《电能和磁能》优质课件.pptx
- 浅谈暖棚法施工冬季桥梁混凝土施工质量控制.doc VIP
- 消防安全主题班会课件——生命至上预防火灾.pptx
- 2024年资料员考试题库含答案(综合题).docx
- 战场救护知识培训PPT课件.pptx VIP
- 3.3.2 C-2.1 卫生院手术部位识别标识相关制度与流程(2024年4月修订).docx
- 【中文翻译版】美国居民膳食指南2020-2025.pdf
- 部编人教版五年级下册语文教案全册教学设计及教学反思.doc
- 学习铸牢中华民族共同体意识心得(15篇).docx VIP
文档评论(0)