网站大量收购闲置独家精品文档,联系QQ:2885784924

手机自然通话语音数据-标注规范V14.docx

手机自然通话语音数据-标注规范V14.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
手机自然通话语音数据-标注规范V14

实施规范 PAGE6 / NUMPAGES7手机自然通话语音数据标注规范数据堂(北京)科技股份公司二○一五年五月 文档控制更改记录 日期作者版本号更改记录2015-06-02卜辉V1.02015-07-15许明涛V1.1使用旧的切割工具2015-08-04陶景林V1.2调整语音中包含英文部分的转写规范2015-08-07卜辉V1.3标注信息更新2015-08-07卜辉V1.4标注信息更新 目录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc419458708 文档控制 PAGEREF _Toc419458708 \h 2 HYPERLINK \l _Toc419458709 1 前言 PAGEREF _Toc419458709 \h 3 HYPERLINK \l _Toc419458710 2 数据要求 PAGEREF _Toc419458710 \h 3 HYPERLINK \l _Toc419458711 3 数据来源 PAGEREF _Toc419458711 \h 3 HYPERLINK \l _Toc419458712 4 标注属性 PAGEREF _Toc419458712 \h 3 HYPERLINK \l _Toc419458713 5 数据处理过程 PAGEREF _Toc419458713 \h 错误!未定义书签。 HYPERLINK \l _Toc419458714 6 数据约束 PAGEREF _Toc419458714 \h 错误!未定义书签。 HYPERLINK \l _Toc419458715 7 交付格式 PAGEREF _Toc419458715 \h 错误!未定义书签。 HYPERLINK \l _Toc419458716 8 质量保证 PAGEREF _Toc419458716 \h 3 HYPERLINK \l _Toc419458717 9 必威体育精装版疑问 PAGEREF _Toc419458717 \h 3 前言本文档为“手机自然通话项目”的标注规范,阅读人员为录制实施人员。数据要求最终要标注出9000小时的有效语音数据。数据来源录制好的电话语音数据。标注标注要求对切开的每个语音段,进行标注。做标注的语音段周围尽量留0.2~0.3秒静音段,如本身没有这么长静音的情况不强求。(V1.3修改内容)注:音频为近端说话者的声音。(近端:装有采集软件的手机麦克风录制的语音。远端:装有采集软件的手机听筒传出的语音。)是否有效无效标注无效判断是否为有效或无效语音的原则:1) 如果一段语音中两个人说话重叠声音大小接近,重叠部分比较多,则标注为无效语音;如果重叠部分较少,一两个词情况,截取不重叠部分标为有效。如果重叠另一个人声音很小可忽略。2) 如果一段语音声音极小,小到几乎听不到,则标注为无效。3) 如果一段语音中只含有噪声或者静音(视为无声音),则标注为无效。4) 如果只有一个“嗯”、“啊”、“哇噻”、“喂”等,则标注为无效。 5) 一句话有听不清楚的部分,不能判断内容转写不出正确结果的情况下,则标注为无效。6)语音段内容为非近端说话人声音的视为无效。(如果无法判断是否是近端还是远端可查听标注语音段的前后语音段来判断。)7)以上情况视为无效,其他正常语音均为有效。噪音标注: [s]: 表示说话人的各种非文本内容的噪声信息,包括唇咂嘴,咳嗽,清嗓子声,啧啧声,笑声。? [n]: 非人发出的声音,主要是一些偶然出现的噪声,例如:鼠标操作声音,敲击键盘的声音等。? [t]: 稳定的噪声,主要是录音环境的一些非偶然噪声,例如周围汽车声,音乐,风声,空调声等。? [p]: 非说话人的周围人发出的噪音,包括唇咂嘴,咳嗽,清嗓子声,啧啧声,笑声等。问:噪音符号什么时候加?答:对于有效语音段明显的噪音且作为独立的声音段时才加(说话同时的噪音不用加,不明显的噪声也不用加)。? 例1:A说完“今天”后笑了下,继续说“我去吃饭了”,那么标为“今天[s]我去吃饭了” 例2:A说话时,周围产生了噪音,那么因为噪音不构成独立声音段,所以不需要标噪音符号。(注意)? 例3:如在整个语音都存在音乐声比较明显,同时开头和结尾存在静音段情况下,在开头结尾处加上[t]。(如果开头和结尾没有静音段,则不用加[t],音乐声不明显也可以忽略不加。)内容标注数据处理人员根据所听到的音频写出内容,力求使文本内容与音频发音内容保持一致。一般准则如下:1). 如果两个人说话重叠声音大小差不多,重叠部分切出去标无效。例:两个人说话重叠,甲说:“

文档评论(0)

tiangou + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档