- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音转写操作手册
(三层)
一、用脚本打开语音文件
1 点击praat—open—read from file—找到你打开的文件—打 开—选中同一个文件名的两个文件—View Edit;
2 Ctrl+2可以同时两层打点,Alt+Backspace可以删除时间点;
做完以后Ctrl+S 保存到根文件下面;
请参看培训视频。
二、开始标注语音文件
时间边界定位:
按Tab键可以播放语音,再次按Tab键/Esc键可以停止播放语音
按Ctrl+i可以放大波形;Ctrl+o可以缩小波形。建议放大1—2标注。
听音,在整段电话语音的基础上,根据语义和停顿时间等因素,在音频信号中每一句话的句首和句尾分别添加时间边界。
添加时间边界的方法为:将鼠标移动到语音波形的相应位置,这时会出现一条虚线以及圆圈,分别点击SPEAKER层和CONTENT层对应的圆圈即可。或者直接Ctrl+2可以自动同时在SPEAKER层和CONTENT层打上时间点。在整个语音文件中,SPEAKER层和CONTENT层的时间边界的数目是完全一致的,每一对时间边界也是完全相等的。
请注意,SPEAKER层和CONTENT层的时间边界必须保持一致。也就是说不管点击哪一层的时间边界,另外一层一定是空心蓝色,而不是实心蓝色
文件标注:
GLOBAL层主要标注语音文件的一些全局信息,包括说话人性别信息和语种信息(方言区)。标注格式如下:
[speaker]:[空格]1[空格]性别,[空格]2[空格]性别;[空格][language]:[空格]1[空格]方言区,[空格]2[空格]方言区
例如:
[speaker]: 1 male, 2 female; [language]: 1 普通话, 2 普通话
[speaker]: 1 male, 2 male; [language]: 1 普通话, 2 普通话
[speaker]: 1 female, 2 female; [language]: 1 普通话, 2 普通话
[speaker]: 1 female, 2 male; [language]: 1 普通话, 2 普通话
SPEAKER层需要标注的是说话人信息,“说话人”取值为以下两种:1、2,分别表示说话人1、说话人2。(说话人1、2仅标注在文字段上,符号段不标注)
如果是客服类对话,则SPEAKER层的“说话人”取值为1的语音,必须是话务员;用户的语音取值为2
客服定义为奇数,用户为偶数;(客服一定是和用户有直接对话,否则不算客服)如果第三个人是用户的情况:
[speaker]: 1 female, 2 female, 4 female; [language]: 1 普通话, 2 普通话, 4 普通话
CONTENT层需要标注的是该句对应的文字,如果是汉语交谈,则只能用简体汉字。对于语音中的数字部分需根据发音情况转换为对应的汉字,例如“27”→“二十七”;“我的电话是2381832”→“我的电话是二三八幺八三二(与发音相同)”。
CONTENT层正常语音的标注
如果此语段为某一个人的汉语对话语音,请在SPEAKER和CONTENT标注时间边界,SPEAKER层标注1或者2,CONTENT层输入相应的文本。
如果此语段为两个人交叉语音,关于重叠(交叉)的语音,即对于某个人的一句话未完,另一个人的一句话已经开始的情况:请在SPEAKER层和CONTENT层标注时间边界,SPEAKER层不标注内容,CONTENT层标注“+”
对于叠加,必须是真实的。不能将大段的听不清语音和叠加混在一起。叠加段内的非叠加部分,前后最多不得超过1个字。至于由于添加叠加的时间边界导致的半个语音(即切掉头或者尾)可用[*]或[UNK]来表示。[*]和[UNK]取决于是单段的听不清,还是在语音中听不清。
在整个语音中,需根据说话人的变换来增加时间边界。
如果同一说话人说话时间较长,则应根据其语义来增加时间边界,每个时间段的长度最多不能超过8s,但断句也不要太散太短。每个自然语言段平均在5-6秒左右即可。
每个时间边界的最佳位置在音频能量的最低点(即波谱图上黑色部分最淡的地方),如果仅有几个字包含不进来,那么建议舍弃这几个字
英文:(英文小写)
【单词】对于语音中简单的英文单词,在能听懂的情况下,直接标出即可。特殊符号用发音标注,不写特殊符号。例如:“网址是三w点sina点com”;
“二三八幺八三二艾特qq点com”;(不要写@)
“请以井号键结束”;(不要写#)
【字母】每个字母中间用空格隔开。例如:good表示单词读音,g o o d则表示字母读音。例如:我的编号是f m s幺三二
如果发音是表示应答的“嗯”,统一都用“嗯”,不要用“恩”或者“厄”。其他的
文档评论(0)